第一章 机器学习基础

第一章 机器学习基础

1.2 关键术语

训练集是用于训练机器学习算法的数据样本集合。

目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的

类别:分类问题中的目标变量,分类问题只存在有限个数的类别。

注意 特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本。

1.3 机器学习的主要任务

  1. 分类:是将实例数据划分到合适的分类中。
  2. 回归:要用于预测数值型数据。

监督学习:分类和回归归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。

无监督学习:数据没有类别信息,也不会给定目标值。
将数据集合分成由类似的对象组成的多个类的过程被称为聚类;
将寻找描述数据统计值的过程称之为密度估计。

1.4 如何选择合适的算法

(一) 首先考虑使用机器学习算法的目的

如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。确定选择监督学习算法之后,需要进一步确定目标变量类型,如果目标变量是离散型,如是/否、1/2/3、A/B/C或者红/黄/黑等,则可以选择分类器算法;如果目标变量是连续型的数值,如0.0~100.00、-999~999或者+∞~-∞等,则需要选择回归算法

如果不想预测目标变量的值,则可以选择无监督学习算法。进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。

(二) 其次需要考虑的是数据问题

主要应该了解数据的以下特性:特征值是离散型变量还是连续型变量,,特征值中是否存在缺失的值,何种原因造成缺失值,数据中是否存在异常值,某个特征发生的频率如何(是否罕见得如同海底捞针),等等。

1.5 开发机器学习应用程序的步骤

  1. 收集数据;
  2. 准备输入数据;
  3. 分析输入数据:是确保数据集中没有垃圾数据。
  4. 训练算法;
  5. 测试算法;
  6. 使用算法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值