记录学习机器学习的过程,方便自己以后查阅;
一.机器学习
机器学习是一门致力研究如何通过计算的手段,利用经验来改善系统自身的性能的学科;在计算机系统中,“”经验通常以“数据”形式存在,因此,机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即“学习算法”(learning algorithm).通过经验数据可以基于数据产生模型.在面对新的数据时,可以提供相应的判断.
二.一些概念知识
- 用来训练模型的数据集叫做训练集,用来测试模型性能的数据集叫测试集或验证集.但是可能存在一个和训练集一致的“假设集合“,这个集合被称为”版本空间“.
- 通过模型学习数据所产生的算法,本身具有”偏好“.
- ”奥卡姆剃刀“是一种常用的自研科学研究的原则,若有多个假设与观察一致,则选择最简单的那个;
- “没有免费的午餐”定理(No Free Lunch Theorem,简称NFL),对于一个学习算法a而言,若它在某些问题上比学习算法b好,则必然存在另一些问题,在那里b比a好.这个结论对任何算法成立.
NFL定理有一个重要的前提,所有“问题”出现的机会相同、或所有问题同等重要;但是实际情况并不是这样的,很多时候,我们只关注自己正在试图解决的问题(例如某个具体应用任务),希望为它找一个解决方案,至于这个方案在别的问题、甚至相似的问题上是否为好方案,我们并不关心.
三.关于模型的评估方法
- 留出法
取样:分层取样,保证各类样本中的比例相同;
1000个样本中抽T个为训练集,S个为测试集,样本中有500个正例,500个反例.则抽取之后
T中有350个正例,350个反例
S中150个正例,150个反例
常见的取值划分范围为2/3 ~ 4/5
最后要进行若干次划分,用若干次的