大数据与人工智能方向基础 ---- 机器学习基本概念

本文详细介绍了机器学习的基本概念,包括样本、特征、标记等关键术语,并探讨了机器学习的典型任务,如分类、回归和聚类。同时,文章还阐述了机器学习的不同学习范式,如监督式、非监督式和强化学习。
摘要由CSDN通过智能技术生成

目录

前言

一、什么是机器学习?

二、机器学习的相关术语

1、样本(sample)、示例(instance):

2、特征(feature)、属性(attribute):

3、属性值:

4、属性空间、样本空间、输入空间:

5、特征空间、样本点、特征向量、特征维数:

6、样本集(sample set)、数据集(data set)

7、测试样本(testing sample):

8、标记(label):

9、已知样本(known sample)

10、未知样本(unknown sample)

11、标记空间(label space)、输出空间(output space):

12、学习(learning)、训练(training):

13、训练数据(training data)、训练样本(training sample)、训练集(training set):

14、测试(testing)、测试样本(testing sample):

三、机器学习的典型任务

1、学习任务是什么?

2、典型的学习任务都包括哪些呢?

2.1 分类(classification)

2.2 回归(regression)

3.3 聚类(clustering)

3.4 特征降维

四、机器学习的学习范式

1、什么是机器学习的学习范式?

2、典型的学习范式都包括哪些呢?

2.1 监督式学习

 2.2 非监督式学习

2.3 强化学习

五、假设与假设空间

1、假设(hypothesis)、假设空间(hypothesis space):

2、版本空间(version space):

六、假设的选择原则

1、奥克姆剃刀准则:如无必要,勿增实体

2、多释原则:

七、机器学习的三要素

总结



前言

有很多新手刚刚接触大数据与人工智能方向学习,如果不知道怎么着手的,跟我一起慢慢进步叭~


提示:以下是本篇文章正文内容,下面案例可供参考



一、什么是机器学习?

定义一:机器学习是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心

定义二:以P评价计算机程序关于某类任务T上的性能,如果某程序利用经验E使T中的任务获得了性能改善,则称该程序对经验E进行了学习。

定义三:机器学习是一门让计算机无需显式编程即可运行的科学。

定义四:机器学习是一种数据科学技术,它帮助计算机从现有数据中学习,从而预测未来的行为、结果和趋势。



二、机器学习的相关术语

1、样本(sample)、示例(instance):

所研究对象的一个个体,相当于统计学中的实例。样本也称示例

2、特征(feature)、属性(attribute):

用于表征样本的观测,通常是数值表示的某些量化特征,特征也称属性。如大小,颜色等

3、属性值:

属性上的取值,即为属性值。如“大”“乌黑”等。

4、属性空间、样本空间、输入空间:

由属性张成的空间称为属性空间,又称样本空间输入空间

5、特征空间、样本点、特征向量、特征维数:

分别以每个特征作为一个坐标轴,所有特征所在坐标轴张成一个用于描述不同样本的空间,称为特征空间

在该空间内,每个具体样本就对应空间的一个点,在这个意义下,也称样本为样本点

每个样本点对应特征空间的一个向量,称为特征向量

特征的数目即为特征空间的维数

6、样本集(sample set)、数据集(data set)

若干样本构成的集合,成为样本集,又称数据集

该集合的每个元素就是一个样本

例:d维特征空间的m个观测样本构成样本集D,D={x1,x2,…,xm},xi=[x11,x12,…,x1d]T

7、测试样本(testing sample):

学得模型后,使用该模型进行预测的过程称为测试,被测试的样本则称为测试样本

8、标记(label):

前面的样本数据显然是不够的,要建立关于预测的模型,我们需获得训练样本的结果信息,例如((色泽=青绿;根蒂=蜷缩),好瓜),这里的“好瓜”称为标记,拥有了标记信息的示例,则称为样例

9、已知样本(known sample)

标签已知的样本,称为已知样本

10、未知样本(unknown sample)

标签未知的样本,称为未知样本

11、标记空间(label space)、输出空间(output space):

一般地,用(xi,yi)表示第i个样例,所有标记的集合,称为标记空间,也称输出空间

12、学习(learning)、训练(training):

指从数据中学得模型的过程,通过执行某个学习算法来实现。

13、训练数据(training data)、训练样本(training sample)、训练集(training set):

训练过程中使用的数据,称为训练数据

训练数据中的每个样本,称为训练样本

训练样本组成的集合,称为训练集

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值