机器学习(一)

损失函数:度量单样本的错误程度,损失函数数值越小,模型就越好。
常用的损失函数包括:0-1损失函数、平方损失函数、绝对损失函数、
对数损失函数。
代价函数:度量全部样本集的平均误差。常用的代价函数包括均方误差、
均方根误差、平均绝对误差等。
目标函数:代价函数和正则化函数,最终要优化的函数。

梯度下降:
学习率:α(步长)学习速率太大会导致代价函数振荡、学习速率太小则会
使收敛过慢。
三种形式:
批量梯度下降(BGD):梯度下降的每一步中,都用到了所有的训练样本。
随机梯度下降(SGD):梯度下降的每一步中,用到一个样本,在每一次
计算后便更新参数,而不需要首先将所有的训练集求和。
小批量梯度下降(MBGD)::梯度下降的每一步中,用到了一定批量的
训练样本。每计算常数b次训练实例,便更新一次参数w。
b=1(随机梯度下降,SGD);b=m(批量梯度下降,BGD)
b=batch_size,通常是2的指数倍,常见有32,64,128等。

梯度下降需要选择学习率α,需要多次迭代,当特征值数量n大时也能较好
适用,适用于各种类型的模型。
最小二乘法不需要选择学习率α,一次计算得出,如果特征数量n较大则运
算代价大,(小于10000时还可以接受)只适用于线性模型,不适合逻辑
回归模型等其他模型。

为什么要标准化/归一化?
提升模型精度:不同维度之间的特征在数值上有一定比较性,可以大大提
高分类器的准确性;
加速模型收敛:最优解的寻优过程明显会变得平缓,更容易正确的收敛到
最优解。

归一化会改变特征数据分布(数据映射到[0,1]之间)
标准化不会改变特征数据分布

需要做归一化/标准化:KNN、K-means聚类、感知机、SVM。线性回归
不需要做归一化/标准化的有:决策树、基于决策树的Boosting和Bagging
等集成学习模型对于特征值取值大小不敏感,如随机森林、XGBoost、
LightGBM等树模型,以及朴素贝叶斯。

欠拟合:训练集和测试集效果都很差
处理办法:
1、添加新特征
2、增加模型复杂度
3、减小正则化系数
过拟合:训练集效果很好,测试集效果差
处理办法:
1、获得更多的训练数据(最有效手段)
2、降维(丢弃一些冗余特征)
3、正则化(保留所有的特征,但是减少参数的大小)
4、集成学习方法(把多个模型集成在一起,来降低单一模型过拟合风险)

正则化:
L1正则化:产生稀疏模型(绝对值之和)
L2正则化:防止过拟合(平方和)
Elastic Net

回归的评价指标:
1、MSE均方误差
2、RMSE均方根误差
3、MAE平均绝对值误差

R方
SSR;SSE;SST
越接近1说明模型拟合的越好

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值