算法梳理——线性回归

机器学习的概念

1.有监督学习、无监督学习、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
有监督学习:训练集中的每个样本既有特征向量x,也有标签y。根据样本的y来对模型进行“监督”,调整模型的参数。监督学习对应的是分类和回归算法。
无监督学习:训练集中的每个样本只有特征向量x,没有标签y。根据样本之间的相似程度和聚集分布来对样本进行聚类。无监督学习对应的是聚类算法。
泛化能力:指算法对具有同一规律的学习集以外的数据的适用程度,对其它样本的适应能力。
过拟合:生产的拟合函数过于精确( h ( θ ) = θ 0 + θ 1 x 1 + . . . + θ 6 x 6 h(\theta)=\theta_0+\theta_1x_1+...+\theta_6x_6 h(θ)=θ0+θ1x1+...+θ6x6
欠拟合:生成的拟合函数过于简单( h ( θ ) = θ 0 + θ 1 x 1 h(\theta)=\theta_0+\theta_1x_1 h(θ)=θ0+θ1x1
当训练数据量很少时,容易发生过拟合,因为曲线会拟合这些少量数据点,而这些数据点往往不能代表数据的总体趋势,导致曲线波动大以及发生严重偏离。
解决办法:过拟合可以通过减少参数,加入正则惩罚项 L1(绝对值项) L2,变化学习率,尽可能扩大数据集选取范围等方式解决。还要注意训练模型如果出现测试精度超1000次以上都在持续下降,而训练集精度较高时,要及时停止训练。
  欠拟合可以通过交叉验证,让特征较少的情况多次迭代交替使用训练集和验证集,达到优化,或跟据相关性添加其它特征项,减少正则化参数。神经网络可以加结点加层数。
白话理解就是:增加训练迭代,加数据,加节点,加层数(3层以内)
方差和偏差的概念扩展:
算法的预测误差可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise).
偏差:指偏离真实label导致的误差,反映了学习算法本身的拟合能力
方差:随机变量在其期望值附近的波动程度,即预测值在真实值附近的波动,如同样大小的训练集的变动所导致的学习性能的变化。它反映了数据扰动所造成的影响。
噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界, 即 刻画了学习问题本身的难度 . 巧妇难为无米之炊, 给一堆很差的食材, 要想做出一顿美味, 肯定是很有难度的.

交叉验证:把特征分成几部分:一些作为训练集一些做验证集,下一次交换角色,用验证集数据做训练集,训练集做验证集,交替多次充份训练验证数据。

2 线性回归的原理
建立模型,通过输入特征项加误差项,找到最合适的最好拟合结果y值的数据点。(误差项是独立并有相同分布,服从均值为0方法为θ^2的高斯分布正态分布,即符合中心极限定理。)

损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。
代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。
1)残差平方和(SSE):真实值与预测值之差的平方和。SSE越小越好,越小说明模型拟合越好。
 (2) 判定系数(R2):回归平方和占总平方和的比例,等于回归平方和(SSR)/总平方和(SST),又等于1—SSE/SST。判定系数测度了回归直线对观测数据的拟合程度。判定系数越大,说明线性回归方程拟合的越好。
  (3)均方误差(MSE)

3 sklearn参数详解(sklearn包里面线性回归的每个参数的作用)
LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)
  (1)fit_intercept:是否有截据,如果没有则直线过原点。默认为True.
  说明:是否对训练数据进行中心化。如果该变量为false,则表明输入的数据已经进行了中心化,在下面的过程里不进行中心化处理;否则,对输入的训练数据进行中心化处理。
  (2)normalize:是否将数据归一化。

(3)copy_X:默认为True,当为True时,X会被copied,否则X将会被覆写.。(即经过中心化,标准化后,是否把新数据覆盖到原数据上)。

(4)n_jobs:默认值为1。计算时使用的核数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hyh342284181

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值