这是第一次参加并且打卡,也概览了西瓜书的前两章,只能说是对这些一窍不通,但也是有学习的兴趣,通过布置任务并且要打卡审核,让我知道该干什么,有了紧迫感,也就有了动力。
学习了前两章知识,让我对机器学习有了一定的了解。
一.绪论
机器学习定义:利用经验改善系统性能。(经验:训练数据.)
术语:数据集,属性。属性空间,特征向量,训练数据,假设,分类问题,回归,聚类,泛化能力等,监督学习和非监督学习(分类,回归属于前者,聚类属于后者)
假设空间:
归纳和演绎:归纳和演绎是科学推理的两大基本手段,前者是从特殊到一般的泛化,从具体的事情归结出一般性规律,后者则是从一般到特殊的特化过程,从基础原理推演出具体状况。
学习过程,就是从所有假设空间里进行搜索的过程,并找到与训练集匹配的假设
版本空间:不同的模型方案,可以搜索到不同的假设,这个假设的集合就叫版本空间。
感觉这个很有深意,便记录下来。没有免费午餐定理:(NFL定理:一个算法A比另一个算法B好,必定有另外一些问题算法B比算法A好.)没有最好的,只有最合适的!
二.模型评估与选择
1 经验误差与过拟合:
在训练集上的误差称为训练误差,
在测试集上的误差称为测试误差,
学习器在新样本上的误差称为泛化误差,
学习能力太强,把过度学习训练样本中的其他特性,称为过拟合 ,
学习能力太差,一般特性都没有学好,称为欠拟合。
2.评估方法
1.留出法:直接将数据集划分成两个互斥的集合。(训练集和测试集的划分要尽可能保持数据分布的一致性。因为占比不同,导致训练出的模型各有不同,所以经常2/3~4/5的样本用于训练,其余样本用于测试)
2.交叉验证法:将数据集进行划分成k个互斥且并为数据集的子集合,每次使用k-1个子集作为一个训练集,余下一个作为测试集,进行k次实验,同样,在划分数据集时候存在不同方式,每种划分方式下进行k次实验。一般,取10次划分方式,每次划分成10个子集,总共进行了100次实验。。。特别的,留一法,每次将每个样本作为一个子集,这样有可能提高准确性,但是代价比较大。
3.自助法:是以上两个方法的折中。数据集D,从D 中m次随机有放回取样得到集合D,将D作为训练集合,D-D`作为测试集。这样会引起估计偏差。在数据集合足够大的时候,采用留出法或交叉验证法。
第一次接触这些,也都是一些陌生的名词,还是综合了b站上别人的视频和相应资料,然后自己整理,但还是有一些读不懂,也有很多没有整理,继续加油^_^。