1、机器学习
数据集(特征提取,数据集中每一个样本有n个属性构成n维样本空间,每个样本点对应一个特征向量)->学习算法(训练集)->模型(分类/回归/聚类)->预测(测试集/泛化能力)
一个程序利用经验E在任务T上获得了性能P的改善,则关于任务T和性能P,该程序对经验E进行了学习。
2、分类&回归&聚类
分类:二分类,多分类 ——离散
回归:实数集 ——连续
分类&回归属于有监督学习,分类和回归的界限有时不明确
聚类:无监督学习
半监督:部分数据有标签,部分无标签
3、泛化能力
模型适用于新样本的能力,一般而言,对独立同分布样本,训练样本越多,就越有可能得到更好的强泛化能力的模型
4、归纳&演绎
归纳:从特殊到一般规律——机器学习
演绎:从一般规律到特殊
5、假设空间&版本空间
所有假设组成的空间,与训练集一致的称为版本空间
6、归纳偏好
版本空间有多个,应该采取哪一个?
奥卡姆剃刀原则:选择最简单的那个
7、没有免费午餐定理
在某种理想情况下,学习算法根据不同的归纳偏好选择不同的模型,而事实证明,总误差与学习算法无关。
即在不对特征空间先验分布有假设时,所有算法的平均表现一样
也就是说学习算法的归纳偏好和实际问题的契合度决定了算法实际性能
8、人工智能发展
逻辑推理(推理)->专家系统(知识)->机器学习(学习)
从样例中学习:决策树,基于逻辑的学习
连接主义学习:神经网络 BP 深度学习(多层神经网络)
统计学习:支持向量机(核方法)
公式推导参考南瓜书:Pumpkin Book