机器学习是一门交叉的学科,它涉及到统计学、概率论、凸分析、算法复杂度等多门学科。专门研究计算机怎么模拟人类或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
基本定义:机器学习是利用已有的数据开发一种算法,使计算机不需要外部指标,通过对数据的学习进行建模,而后利用建立好的模型和新的输入来进行预测。
机器学习的应用:语音识别、自动驾驶、语言翻译、计算机视觉、推荐系统、以及无人机等。
机器学习的基本概念:训练集、测试集、特征值、监督学习、无监督学习、半监督学习以及分类、回归等。
训练集:用来进行训练,产生模型或算法的数据集
测试集:用来测试已学习好的模型及算法的数据集
特征向量:属性的集合,用向量表示
标记:实例类别的标记
分类(classification):目标标记为类别型数据,即为离散的
回归(regression):目标标记为连续型数据
有监督学习(surpervised learning):训练集有类别标记
无监督学习(unsurpervised learning):训练集无类别标记
半监督学习(semi-surpervised learning):有类别标记+无类别标记的训练集
机器学习的框架:
(1)把数据划分成训练集和测试集
(2)用训练集和训练集特征向量进行学习,得到模型或算法
(3)将测试集作为学习得到模型或算法的输入,对模型进行测试,评估算法(可能要涉及到调整参数,用验证集)