初级算法梳理(一)

一、有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
学习资料:笔记《写给人类的机器学习 (Machine Learning for Humans)》

1、什么是有监督学习,什么是无监督学习。这两种方式之间的相同和不同点是什么?

https://www.sohu.com/a/232571911_100178754

  • 小结:

有监督学习,学习结果是已有的标签,相当于贴标签的过程。
无监督学习,将数据进行归类。

有监督学习无监督学习
分类聚类
输入n维,特征n维可进行降维
输出带标签只将同类划分到一起,但不清楚每一类是什么。
权重值不可解释一致性可分析
无拓展性DataVisor无监督具有拓展性
  • 如何选择有监督,无监督

有/无监督选择方法

  • 什么是数据的维度?
    一个样本由d个属性表示,样本是一个d维空间的向量,d称为维数。
    如,西瓜有色泽,根蒂,敲声等属性
  • 什么是降维?
    从高维度数据中提取关键信息,将其转换为易于计算的低维度问题
    https://36kr.com/p/5090797

2、什么是泛化能力,评价标准

泛化能力是模型对未知数据的预测能力。模型是否能提取到最本质的信息,以适应复杂多变的情况。
衡量模型泛化能力的评价标准
回归任务常用的性能度量是“均方误差”。

  1. 错误率与精度
  2. 查全率、查准率
  3. ROC与AUC
    4.代价敏感错误率与代价曲线

3、什么是过拟合,什么是欠拟合,什么情况会导致过拟合,什么情况会导致欠拟合,怎么消除。

假设,给两个数,让机器来计算两个数的加法,它学会了1+1=2,但是当给出15+7,它却不会计算了,这就是泛化能力很差的表现,只会学习给定的东西,换两个数还是不会计算,这也是不具备举一反三、学以致用的能力----->没错,这就是过拟合(over-fitting)。(联系上了吧)

同时就能根据自己的理解总结出来过拟合的特点:模型在训练时效果很好(死记硬背),但是在测试时效果很差(不会举一反三)。引用别人说的一句话,模型对数据学习过度,把局部特征、噪音当成一个很明显的特征并赋予一个较大的权重。

http://www.cnblogs.com/ttdeveloping/p/10600984.html
欠拟合(under-fitting)是和过拟合相对的现象,可以说是模型的复杂度较低,没法很好的学习到数据背后的规律。就好像开普勒在总结天体运行规律之前,他的老师第谷记录了很多的运行数据,但是都没法用数据去解释天体运行的规律并预测,这就是在天体运行数据上,人们一直处于欠拟合的状态,只知道记录过的过去是这样运行的,但是不知道道理是什么。

https://blog.csdn.net/limiyudianzi/article/details/79626702

克服过拟合和提高泛化能力的20条技巧和诀窍

4、交叉验证法是如何实现,有什么作用,不同的交叉验证法直接的差别和实现方式?

1、交叉验证法是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标
2、为什么需要进行交叉验证?
在训练集(train set)上训练得到的模型表现良好,但在测试集(test set)的预测结果不尽如人意,这就说明模型可能出现了过拟合(overfitting),bias低而variance高,在未知数据上的泛化能力差。

一个改进方案是,在训练集的基础上进一步划分出新的训练集和验证集(validate set),在新训练集训练模型,在验证集测试模型,不断调整初始模型(超参数等),使得训练得到的模型在验证集上的表现最好,最后放到测试集上得到这个最优模型的评估结果。

这个方案的问题在于模型的表现依赖于验证集的划分,可能使某些特殊样本被划入验证集,导致模型的表现出现异常(偏好或偏差)。而且训练集划了一部分给验证集后,训练模型能得到的数据就变少了,也会影响训练效果。因为通常来说,训练数据越多,越能反映出数据的真实分布,模型训练的效果就越好,越可能得到无偏估计。

交叉验证思想应运而生,交叉验证可以充分使用所有的训练数据用于评估模型。
https://www.jianshu.com/p/cdf6df99b44b
在这里插入图片描述不同交叉检验方法的实现方式1
不同交叉检验方法的实现方式2
二、线性回归的原理

三、线性回归损失函数、代价函数、目标函数
线性回归的模型函数和损失函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
目标函数
在这里插入图片描述
http://www.cnblogs.com/qkloveslife/p/9824010.html
[西瓜书-线性回归原理推导与算法描述]
四、优化方法(梯度下降法、牛顿法、拟牛顿法等)
参数求解-公式推导
梯度下降法
常见的几种最优化方法(梯度下降法、牛顿法、拟牛顿法、共轭梯度法等)

五、线性回归的评估指标
MSE,RMSE,MAE、R-Squared
1、均方误差(MSE)
MSE (Mean Squared Error)叫做均方误差。看公式

image.png

这里的y是测试集上的。用真实值-预测值 然后平方之后求和平均。
2、均方根误差(RMSE)
RMSE(Root Mean Squard Error)均方根误差。

image.png
3、MAE(平均绝对误差)
在这里插入图片描述
4、R方(R Squared)
上面的几种衡量标准针对不同的模型会有不同的值。比如说预测房价 那么误差单位就是万元。数子可能是3,4,5之类的。那么预测身高就可能是0.1,0.6之类的。没有什么可读性,到底多少才算好呢?不知道,那要根据模型的应用场景来。
看看分类算法的衡量标准就是正确率,而正确率又在0~1之间,最高百分之百。最低0。很直观,而且不同模型一样的。那么线性回归有没有这样的衡量标准呢?答案是有的。
那就是R Square
在这里插入图片描述
在这里插入图片描述

慢慢解释。其实这个很简单。
上面分子就是我们训练出的模型预测的所有误差。
下面分母就是不管什么我们猜的结果就是y的平均数。(瞎猜的误差)
如果结果是0,就说明我们的模型跟瞎猜差不多。
如果结果是1。就说明我们模型无错误。
如果结果是0-1之间的数,就是我们模型的好坏程度。
如果结果是负数。说明我们的模型还不如瞎猜。(其实导致这种情况说明我们的数据其实没有啥线性关系)

化简上面的公式
分子分母同时除以m

image.png

那么分子就变成了我们的均方误差MSE,下面分母就变成了方差。
在这里插入图片描述
https://www.jianshu.com/p/9ee85fdad150
公式的理解

六、sklearn参数详解

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值