了解机器学习

机器学习能做什么?

采用怎样的策略或算法发现“数据”和“答案”之间的关联性,并以哪种形式的规则体现,是机器学习的核心。

机器学习的学习对象:数据集,数据集一般以二维表(也就是扁平表)形式组织,由多个行和列组成。数据集中的一行通常称为一个样本观测,如果数据集由N个样本观测组成,则称该数据集的样本容量或样本量为N。数据集中的一列通常称为一个变量(也称特征),用于描述数据的某种属性或状态。

机器学习的任务:机器学习通过向数据集学习,完成两大主要任务,数据预测和数据聚类。

数据预测,简而言之就是基于已有数据集,归纳出输入变量和输出变量之间的数量关系,在数量关系具有普适性和未来不变的假设下,将其用于对新数据输出变量取值的预测。进一步,数据预测可细分为回归和分类。对数值型输出变量的预测问题统称为回归问题,对分类型输出变量的预测统称为分类问题,本质是给出输出变量的分类标签。如果输出变量仅有两个类别,称其为二分类预测。如果输出变量有两个以上的类别,则称其为多分类预测。

数据集中蕴含着非常多的信息,其中较为典型的是,数据集可能由若干小的数据子集组成。数据聚类的目的是发现数据中可能存在的小类,并通过小类刻画和揭示数据的内在组织结构。数据聚类的最终结果是:给每个样本观测指派一个表明其属于哪个小类的标签,称为聚类解,且聚类解将保存在一个新生成的分类型变量中。

数据聚类和数据预测中的分类问题有联系更有区别。联系在于:数据聚类的结果是每个样本观测有一个小类标签,分类问题是给输出变量一个分类值,本质上也是给每个样本观测一个标签。区别在于:分类问题中变量有输入变量和输出变量之分,且分类标签(保存在输出变量中)的真实值是已知的;但数据聚类中变量没有输入变量和输出变量之分,所有变量均视为聚类变量参与数据分析,且小类标签(保存在聚类变量中)的真实值是未知的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值