DataWhale-1学习

                                  机器学习的一些概念

1、有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证

  • 有监督:训练集有类别标记(label)
  • 无监督:训练集无类别标记(不知道训练结果)
  • 泛化能力:机器学习模型对未知数据的预测能力,称为泛化(generalization)能力。
  • 过拟合:模型复杂度太高,使得模型对训练样本有很好地预测性能,但是对测试样本的预测性能很差,最终泛化能力也不行。

解决办法:1)重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据;

2)增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小;

3)采用正则化方法。

4)采用dropout方法。

  • 欠拟合:模型复杂度太低,使得模型能表达的泛化能力不够,对测试样本和训练样本都没有很好地预测性能。

解决办法:1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如:组合,泛化,相关性,上下文特征,平台特征等。

2)添加多项式特征,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

3)减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。

                       

偏差(Bias),误差(Error),方差(Variance):

首先:Error^{2}=Bias^{2}+Variance

Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。如下图,随着模型的复杂度增加,模型预测的偏差会越来越小,但是方差越来越大,预测结果的分布会散开来。

⑥方差: var(x)=E[(f(x;D))-\widetilde{y}\left ( x \right )^{2}]

⑦偏差: bias^{2}\left ( x \right )=\left ( \widetilde{y} \right \left ( x \right )-y)^{2}

⑧交叉验证:重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集合测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。

2、线性回归的原理

给定数据集D,线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。

3. 线性回归损失函数、代价函数、目标函数

目标函数:我们需要的最终结果,及最终拟合了数据的函数。y=\Theta _{1}*x_{1}+\Theta _{2}*x_{2}+b

损失函数:我们得到的预测值y_pre与真实数据y的某种方式计算出来的差值。一般线性回归问题用均方差来作为损失函数。

代价函数:任何可以衡量预测出来的y_pre值与真实值y之间的差异的函数。

 

4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)

梯度下降:一种寻找函数极小值的方法。在已知参数当前值的情况下,按当前点对应的梯度向量的反方向,并按事先给定好的步长大小,对参数进行调整。对参数多次调整之后,函数会逼近一个极小值。

牛顿法:在实数域和复数域上近似求解方程的方法。使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根。牛顿法最大的特点在于它的收敛速度很快。

拟牛顿法:求解非线性优化问题最有效的方法之一。拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷,它使用正定矩阵来近似Hessian矩阵的逆,从而简化了运算的复杂度。

 

5、线性回归的评估指标

均方误差MSE(平方和取平均值),均方根误差RMSE(平方和取平均值开根号),平均绝对误差MAE,R Squared R方。

 

6、sklearn参数详解

LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)

fit_intercept:是否有截距,如果没有则直线过原点。

Normalize:是否将数据归一化。

Copy_X:默认为True,当为True时,X会被copied,否则X将会被覆写。

N_jobs:默认值为1。计算时使用的核数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值