谷歌机器学习课程笔记

1,特征缩放,有以下几大好处:

a,帮助梯度下降法更快的收敛;

b,帮助避免“nan”陷阱,如果模型中某个值为nan(即如果某个值在训练期间超出浮点数精度时),模型中其他数值也会因为这个数值导致变成nan;

c,确保某个特征的权重不那么大,不然模型可能对范围比较大的特征投入比较大的精力。

2,特征缩放的方法:

a,特征减去均值或者最小值,除以范围(即最大值减最小值);

b,特征减去均值除以方差。

3,如何处理极端值的情况,极端值即大部分点在某个范围呢,小部分点离该范围较远,比如有一个非常长的尾巴:

a,对每个特征取对数,log(x+1);

b,大于某个值时,将大于的值都赋值为该值,这样造成了在阈值处有一个小峰值;

c,分箱,分箱有两种方法,一种是均匀分箱,一种是通过分位数分箱,按照分位数分箱,这会确保每个箱子内的样本点数量是一样的,按照分位数分箱无需考虑离群值。

4,垃圾数据包括以下几个方面;

a,遗漏值,某个特征的值缺失;

b,重复值;

c,不良标签,有个把标签给弄错了;

d,不良特征,把特征给记录错了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值