Udacity机器学习入门——特征缩放

特征缩放是解决不同特征度量标准差异的重要手段,它使得数据在0到1范围内具有可比性,有助于稳定预估输出。在某些算法中,如线性回归和决策树,特征缩放的影响较小,而在使用RBF核函数的SVM和K-均值聚类中则较为关键。在K-均值聚类中,特征缩放可以影响聚类结果。项目中提到,对于MaxMinScaler,原值200,000的“salary”缩放值为0.1796,而100万的“exercised_stock_options”缩放值为0.0290。在基于“from_messages”和“salary”进行集群化时,特征缩放至关重要,因为两者数量级差异巨大。" 81367309,7697600,探索型数据分析:利用Seaborn绘制统计图形,"['数据学习', '数据分析', '可视化']
摘要由CSDN通过智能技术生成

Chirs体重+身高=146.1 

Caneron体重+身高=180.9 

Serah 体重+身高=120.2                  

从数据上看Chirs与S数值更接近,应该穿S大小衣服,但是由于体重和身高的度量标准差异(一个是个位数,一个是百位数)导致体重占据了主导位置,此时就用到特征缩放,使这些特征跨越的范围有可比性,通常是在0和1之间(包含0、1)

特征缩放的一个优点是预估输出相对稳定,缺点是当有异常值时,max或min可能会是极端值


通过特征缩放Chirs的体重特征 值缩放为0.417

编写代码计算特征缩放值

def featureScaling(arr):
    scaler_list=[]
    if max(arr)==min(arr):
        for i in range(0,len(arr)):
             scaler_list.append(0.5)
        return scaler_list
    else:
        for i in range(0,len(arr)):
            scaler =(float)(arr[i]-min(arr))  / ( max(arr)-min(arr))
            scaler_list.append(scaler)
        return scaler_list

# tests of your feature scaler--line below is input data
data = [115, 140, 175]
print featureScaling(data)

实际上在sklearn中有代码能够实现:

>>>from sklearn.preprocessing import MinMaxScaler
>>>import numpy
>>>weights
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值