1.1 机器学习是什么
机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身性能的学科。其所研究的主要内容是学习算法。有了学习算法,并为其提供经验数据,它就能基于这些数据产生模型,在面对新的情况时,模型会做出相应的预测判断。
1.2 基本术语
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
1.数据集: 如表1-1所示的一组记录的集合就称为一个“数据集”。
2.样本: 数据集中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,这样的一条记录(这里是表1-1中的一行数据)称为一个“样本”。
3.特征: 反映事件或对象在某方面的表现或性质的事项,例如“色泽”、“根蒂”、“敲声”,称为“特征”。
4.特征向量: 样本每个特征取值组成的向量,例如1号西瓜的特征向量为(青绿,蜷缩,浊响)。
5.标签: 样本的“结果信息”(这里指是否是好瓜),例如1号西瓜的标签为“是”。
1.3 假设空间
假设空间可以理解为模型方案的候选集合,可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。
假设的表示一旦确定,假设空间及其规模大小就确定了。这里表1-1西瓜数据集的假设空间由形如“(色泽=?)∧(根蒂=?)∧(敲声=?)”的可能取值所形成的假设组成。
1.4 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。
归纳偏好的作用可以在图1-1这个回归学习图示中直观的体现。
图1-1中每个训练样本是图中的一个点(x,y),学习到符合训练数据分布的模型就是学习到一条曲线,使得这条曲线经过图中的所有样本点,如图中的曲线A和曲线B。
显然曲线A的学习算法更偏好于“平滑地经过样本点”,而曲线B的学习算法更偏好于“崎岖地经过样本点”。
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。对于有着不同偏好的多种学习算法,我们常用“奥卡姆剃刀”原则进行选择。
同时我们要有这样的意识:脱离具体问题,空泛地谈论“哪种学习算法最好”毫无意义。
奥卡姆剃刀原则: 若有多个假设与观察一致,则选最简单的那个。
NFL定理: 一个算法a若在某些问题上比另一个算法b好,必存在另一些问题,b比a好。
没有免费午餐定理: 没有最好的算法,只有最合适的算法。
1.5 发展历程
二十世纪五十年代初: 机器学习的研究工作开始。
五十年代中后期: 基于神经网络的“连接主义”学习开始出现,代表性工作有F.Rosenblatt的感知机。
六七十年代: 基于逻辑表示的“符号主义”和以决策理论为基础的学习技术蓬勃发展。
八十年代至九十年代中期: 机器学习成为一个独立的学科领域,各种机器学习技术百花初绽的时期,其中以符号主义学习和基于神经网络的连接主义学习为代表。
九十年代中期: 统计学习方法出现并迅速发展成为主流方法,代表性技术是支持向量机,简称SVM。
二十一世纪初至今: 得益于大数据时代的到来和计算机计算能力的提高,深度学习迅猛发展,并在图像、语音等包含海量特征的数据对象应用中取得了比其他机器学习方法更好的性能。
1.6 应用现状
目前,机器学习技术在多媒体、图形学、网络通信、软件工程、体系机构和芯片设计等领域均得到了很好的应用。
下面以几个常见的简单例子作为说明。
1.图像识别
2.互联网推荐
3.无人驾驶
4.古文献修复
博客参考周志华教授《机器学习》(西瓜书)