学习科大讯飞的StatQuest机器学习课笔记(1)

简介
1.机器学习都是关于作出预测和分类的。
2.原始数据被称为训练数据,使用测试数据来评估机器学习方法,不要被机器学习方法与训练数据的匹配程度所愚弄。
3.对训练数据拟合效果好,但预测效果不佳,这种现象称为“偏差-方差权衡”。
4.机器学习最重要的是通过测试数据来决定哪种方法最适合我们的需求。
交叉验证
1.交叉验证可以比较不同的机器学习方法,并了解他们在实际工作中的作用。
2.估计机器学习方法中的参数——参数估计称为训练算法。
3.评估机器学习方法的工作效果——测试算法。
4.将测试数据分成4份(四折交叉验证),其中三份用于训练算法,剩下的一份用于测试算法。
5.留一交叉验证——只留一份用于测试,其他用于训练。
6.十折交叉验证——可以用来帮助找到调优参数的最佳值
混淆矩阵
1.混淆矩阵的每一行对应于机器学习方法预测的内容,每一列对应于已知的事实。
2.真阳性(TP):事实为真,预测也为真;真阴性(TN):事实为假,预测也为假;假阴性(FN):事实为真,预测却为假;假阳性(FP):事实为假,预测却为真。
3.混淆矩阵的规模取决于我们想要预测的结果的维度。
4.通过混淆矩阵可以知道机器学习方法哪里做对了,哪里做错了。
敏感性和特异性
1.敏感性(正向识别率):正确识别出为真的百分比=TP/(TP+FN);
2.特异性(反向识别率):正确识别出为假的百分比=TN/(TN+FP);
3.通过比较不同机器学习方法的敏感性和特异性,可以帮助我们选择最适合数据的机器学习方法,如果正确识别阳性对数据最重要,应该选择敏感性更高的方法。如果正确识别阴性对数据最重要,应该选择特异性更高的方法。
偏差和方差
1.方差:不同数据集经拟合得出的差异。
2.在机器学习中,理想算法偏差小,可以精确的模拟真实关系,且不同数据集之间的预测结果一致,可变性较低。
3.在简单模型和复杂模型之间找到最佳点,通常有三种方法:归一化(regularization),提升(boosting),装袋(bagging)。

 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值