吃瓜教程学习笔记-CH1&CH2
CH1-绪论
1.1 引言
机器学习:致力于研究如何通过计算的手段,利用经验来改善系统的性能。
经验:数据
ML研究内容:从数据中产生”模型“算法,即’学习算法‘,再把数据提供给机器之后,就能产生模型,面对新情况时提供相应的判断。
类似于教会一个孩子学会举一反三的能力,这里换成了计算机
1.2 基本术语
如下面思维导图所示:
1.3 假设空间
归纳 induction:从特殊到一般的泛化,从具体事实归纳出一般性规律,狭义归纳学习称为概念学习。
演绎 deduction:从一般到特殊的特化,从基础原理推演出具体状况。
学习过程:在所有的假设的示例空间搜索,与训练集匹配的假设。
版本空间:一个与训练集一致的假设空间
1.4 归纳偏好
归纳偏好:权重
具体后续填坑!
1.5 发展历程
推理期
知识期
基于神经网络的连接主义:感知机
基于逻辑表示的符号主义:结构学习系统
从样例中学习:决策树
归纳逻辑设计
连接主义:黑箱,试错性,调参=炼丹
统计学习;SVM,核方法
CH2 模型评估与选择
2.1 经验误差与过拟合
训练误差 training error:训练集误差
泛化误差 generalization error:新样本
过拟合 overfitting:把训练样本特点当做所有潜在样本性质,过度提取特征,泛化能力下降。学习能力过于强大,无法避免,只能缓解
欠拟合 underfitting:性质没学好。学习能力底下,易克服。
模型选择:泛化误差小的
中庸,多了不好,少了也不好
2.2 评估方法
要求:训练集尽量与测试集互斥。
1 留出法 hold-out
方式:直接将数据集划分两个互斥的集合
注意:
a、测试、训练集保持数据分布一致性,分层采样
b、单次使用不可靠,多次使用求平均值
c、2/3~4/5用于训练,剩下用于测试
2 交叉验证法 cross validation
方式:将数据集划分为k个大小相似的互斥子集,用k-1个训练,1个测试,进行k次训练测试求均值。
注意:
a、保持数据分布一致性,分层采样
b、k折交叉验证,k一般取10,又叫10次10折交叉验证
c、留一法:LOO
d、一般适用于小样本
3 自助法 bootstrapping
方式:从m个样本的数据集D中有放回的取m次数据,将取的数据拷贝到新数据集D1中。
注意:
a、自助采样,D中约有1/3的数据没被采到D1中
b、在数据集小,难以有效划分时有用
c、产生的数据集改变了数据集的分布,引入估计偏差
4 性能度量 performance measure-衡量泛化能力
回归任务:常用均方误差 mean squared error
分类任务:常用错误率和精度
查准率 precision:P=TP/(TP+FP)
查全率 recall:R = TP/(TP+FN)
P-R曲线:包住就是好,平衡点BEP,
F1度量:调和平均
F1一般形式:加权调和平均
5 ROC与AUC
后续填坑!