机器学习:假设用P来估计计算机程在某个任务T上的性能,若一个程序通过利用经验E在T中获得了性能改善,我们说关于T和P,该程序对E进行了学习。
适用机器学习的地方:
1、表现或目标能够增进
2、不知道把规则写下
3、一切学习从资料开始
人工智能的核心主要使用归纳、综合而不是演绎。
机器学习的三要素:数据、模型、算法
分类:目标标记为离散型数据
回归:目标标记为连续型数据
有监督学习:训练集有类别标记
无监督学习:训练集无类别标记
半监督学习:有类别标记的训练集+无标记的训练集
机器学习的步骤:
1、将数据拆分为训练集、测试集以及验证集(可以有)
2、把训练集和训练集的特征向量来训练算法
3、用学习来的算法用在测试集上来评估算法,可能要调整参数,用验证集
机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。
精度=1-错误率=1-样本分类错误个数/总样本个数,学习器在训练集上的误差称为训练误差或经验误差。
过拟合:学习器可能把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,导致泛化性能下降。
欠拟合:学习器对训练样本一般性质尚未学好。
评估方法
留出法:将数据集划分为两个互斥的数据集,训练集与测试集。
交叉验证法:
自助法:
性能度量
错误率与精度
查准率、查全率