Udacity机器学习入门——特征缩放

最新推荐文章于 2024-03-06 11:02:39 发布

张文彬彬

最新推荐文章于 2024-03-06 11:02:39 发布

阅读量382

点赞数

分类专栏：机器学习入门笔记

本文链接：https://blog.csdn.net/u012084802/article/details/80100357

版权

特征缩放是解决不同特征度量标准差异的重要手段，它使得数据在0到1范围内具有可比性，有助于稳定预估输出。在某些算法中，如线性回归和决策树，特征缩放的影响较小，而在使用RBF核函数的SVM和K-均值聚类中则较为关键。在K-均值聚类中，特征缩放可以影响聚类结果。项目中提到，对于MaxMinScaler，原值200,000的“salary”缩放值为0.1796，而100万的“exercised_stock_options”缩放值为0.0290。在基于“from_messages”和“salary”进行集群化时，特征缩放至关重要，因为两者数量级差异巨大。" 81367309,7697600,探索型数据分析：利用Seaborn绘制统计图形,"['数据学习', '数据分析', '可视化']

摘要由CSDN通过智能技术生成

Chirs体重+身高=146.1

Caneron体重+身高=180.9

Serah 体重+身高=120.2

从数据上看Chirs与S数值更接近，应该穿S大小衣服，但是由于体重和身高的度量标准差异（一个是个位数，一个是百位数）导致体重占据了主导位置，此时就用到特征缩放，使这些特征跨越的范围有可比性，通常是在0和1之间（包含0、1）

特征缩放的一个优点是预估输出相对稳定，缺点是当有异常值时，max或min可能会是极端值

通过特征缩放Chirs的体重特征值缩放为0.417

编写代码计算特征缩放值

def featureScaling(arr):
    scaler_list=[]
    if max(arr)==min(arr):
        for i in range(0,len(arr)):
             scaler_list.append(0.5)
        return scaler_list
    else:
        for i in range(0,len(arr)):
            scaler =(float)(arr[i]-min(arr))  / ( max(arr)-min(arr))
            scaler_list.append(scaler)
        return scaler_list

# tests of your feature scaler--line below is input data
data = [115, 140, 175]
print featureScaling(data)

实际上在sklearn中有代码能够实现：

>>>from sklearn.preprocessing import MinMaxScaler
>>>import numpy
>>>weights

最低0.47元/天解锁文章

张文彬彬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Udacity机器学习入门——特征缩放

Chirs体重+身高=146.1 Caneron体重+身高=180.9 Serah 体重+身高=120.2 从数据上看Chirs与S数值更接近，应该穿S大小衣服，但是由于体重和身高的度量标准差异（一个是个位数，一个是百位数）导致体重占据了主导位置，此时就用到特征缩放，使这些特征跨越的范围有可比性，通常是在0和1之间（包含0、1）特征缩放的一个优点是预估输出相对稳定...
复制链接

扫一扫

专栏目录