第一章绪论
这一章主要介绍了一些机器学习的一些基本概念,对机器学习有了更深入的了解。
数据集(data set)、示例() or 样本(sample)、属性(attribute) 属性值(attribute value)、
属性空间(attribute space) or 样本空间 or 输入空间:这三个是同一个意思,属性张成的空间。
机器学习主要分两类
有监督学习 :主要有分类 和回归两种类型
无监督学习:聚类为代表,不需要标记信息,聚类:将训练集中的数据分成若干个组,每个组称为一簇(cluster)
假设空间:可能拟合训练集的模型
版本空间:所有能够拟合训练集的模型构成的集合
泛化(generalization):训练得到的模型再新样本上面的预测能力的准确性,判断模型的好坏。
分布:假设样本服从一个D分布,然后通过足够多的样本来推测出D分布的信息,这就可以对新样本进行预测。这就很想一种经验学习,积累足够多的经验,来预测可能发生的事情。
奥卡姆剃刀(Occam‘s razor) :若有多个假设与观察一致,那就选择最简单的那个。
“没有免费的午餐定理”(NFL):无论算法多么聪明or笨拙,期望性能相同。这只是要告诉我们脱离具体问题,谈算法的优劣毫无意义。
“数据决定模型的上限,而算法则是让模型无限逼近上限“
第二章 模型评估与选择
这一章的公式推导比较多,简单的还可以理解,稍微有点难的我就直接放弃了。
经验误差过拟合这些概念比较简单一些,而且之前了解的比较多就不再记录了。
评估方法
这个小节里面介绍的留出法、交叉验证(K-交叉验证),自助法,这些方法之前有所了解过一点,我的理解就是对样本数据的不同的处理方法。总体来说,还是将样本分为训练集和验证集的不同方法。除此之外还存在一个测试集。
性能度量
P查准率(precision)[学习器预测为正例的样例中有多大比例是真正例]\R查全率(recall)[所有正例当中有多大比例被学习器预测为正例],一般来说二者是相互矛盾的变量,一个大另一个就要小
P-R曲线, BEP平衡点(Break-Event Point)P=R的点,肯定是越大越好啊
加权调和平均:这个指标就是为了,来表达我们对于P还是R更在看中那一个
ROC(受试者工作特征曲线):这个名词之前再药代的里面听到过,不当是也没太理解是啥意思。
现在的理解就是 真正例率与假正例率组成的图。ROC 曲线上每一个点所表示的意思就是在一特定的阈值下,学习器的二分类的预测水平。
横坐标假正比例(FPR)[实际为反例但预测为正例,所有反例中有多大被预测为正例]
纵坐标 真正比例率(TPR)[所有正例中有多大比例被预测为正例 即查全率]
AUC,ROC 的曲线下面积:简单的说就是面积越大学习器越好
代价敏感错误率(cost-sensitive):比方说,本来正确的预测错误了,和本来错误的给预测正确了,这两种情况造成的影响大小是不一样的,可能把错的预测成对的代价要低,但把对的预测错了代价比较高,这时候就需要一个参数来体现出这种代价。
比较检验
这 一部分内容之前数理统计的时候学过,总体感觉就是,会用就行,知道咋回事,
主要是没能力去推导和完全理解公式。