第一章 绪论
机器学习三观
what:研究关于“学习算法”的一门学科
why:理论研究,系统开发,迁移应用,AI应用
迁移应用:看懂推导,调用scikit-learn,学完前五章开始使用
假设空间和版本空间
假设空间
一个问题可以有很多假设空间,即假设等价表示自变量与因变量呈现什么关系,从而对应多种算法模型求解
版本空间
能够拟合训练集的模型(假设)构成的集合称为“版本空间”
假设空间大于版本空间,只有能够拟合的假设空间才能称之为版本空间。
基本术语
算法与模型
样本
对事件对象的描述,提取特征,
样本空间
特征向量所在的空间
数据集
相同特征的集合
标记
希望建模和学习的规律
泛化
衡量模型好坏的关键
分布
独立同分布
归纳偏好
基于模型在测试集上的表现来评价
数据决定模型的上限,算法让模型无限接近上限。
数据量越大模型效果越好
特征数值化越合理,特征收集越全越合理,效果越好
不同算法学习得到的模型效果有高低之分
参考:
[1]周志华. 机器学习. 清华大学出版社, 2016.
pumpkin-book/docs/chapter10/chapter10.md at master · datawhalechina/pumpkin-book (github.com)