机器学习第一章部分总结

方法三要素:模型+策略+算法
策略:
损失函数:
0-1损失函数,平方损失函数,绝对损失函数(绝对值),对数损失函数,
平均损失函数又称为经验风险函数
结构风险:经验风险+正则化项(惩罚项)

过拟合: 一味的追求提高对训练数据的预测能力,所选择的模型的复杂度往往比实际 真模型要更高。这种现象称为过拟合。特点:对已知数据预测效果很好,但 对未知数据表现的十分差。
针对过拟合的问题解决方式:正则化和交叉验证
正则化:即结构风险最小化,在经验风险上加一个正则化项,也就是惩罚项。
交叉验证:将数据集分为三个部分:训练集,验证集,测试集。思想:重复使用数据
训练集:主要用于模型的选择。
测试集:最终对学习方法的预估。
验证集:在学习不同的复杂程度中,选择对验证集有最小预测误差的模型。
交叉验证的方法:
1.简单交叉验证:训练集和测试集(一般训练集70%,测试集30%)
2.S-折交叉验证:将数据分成S个互不相交的,大小相同的子集,利用S-1个子集的 数据训练模型,利用余下的子集进行测试。选出最好的平均测试误差。
3.留一交叉验证:S-折交叉验证的特殊情形S=N, 数据缺乏时用该方法。
泛化能力:该方法学习到的模型对未知数据的预测能力。通过测试误差来评价学习方 法的泛化能力。
泛化误差:它是样本容量函数,当样本容量增加时,泛化上界趋于0;若是假设空间的 函数,假设空间越大,模型越难学。
生成模型:利用联合概率分布,可以简单看成预测模型(生成模型):朴素贝叶斯, 马尔科夫模型。
判别:利用的是条件概率分布或者决策函数。

二分类问题中常见的指标:
精确率,召回率,准确率。
TP-正类数预测正类, FN-正类数预测负类数;FP-负类预测为正类数,负类预测为负类数。
精确率 =

P = \frac{TP}{TP+FP} 

召回率 :

R = \frac{TP}{TP+FN} 

例子: 假设有100个数据集,50个正的数据集,50个负的数据集。正的数据集预测正 确为30,负的数据集预测正确为40
这里 正的数据集个数为40,负的数据集为60
则精确率为

\frac{30}{40} = 0.75

召回率:

\frac{30}{50}=0.6

准确率:

\frac{70}{100}=0.7
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值