机器学习基本概念 特征工程

近期做了一道题目,现在到了瓶颈,怎么换模型准确率都上不去了。于是决定回过头来再研究下特征,才发现自己在特征工程这方面还欠缺很多,所以这篇博客便做个补充。

1.特征标准化( feature nomalization)

a.定义与解释:

特征数据的标准化, 也可以说正常化, 归一化, 正规化等等。为什么我们需要标准化特征呢??简单来说,这是为了让机器学习能够消化我们的数据。 举个例子,你现在手上的特征相当于公司的员工们,而你是老板。你要知道的是每个特征的影响力是不同的,就像是你的员工能力不相同。如果你直接平分任务让他们开始工作,很明显有些人会马上完成,而一些人可能需要很久,这种不平衡是效率很低的。所以, 我们要提高效率, 特征的标准化就可以帮忙。在机器学习训练之前, 先对数据预处理, 取值跨度大的特征数据, 我们浓缩一下, 跨度小的括展一下, 使得他们的跨度尽量统一。

b.分类:

通常用于特征标准化的途径有两种。一种叫做 min max normalization, 他会将所有特征数据按比例缩放到0-1的这个取值区间. 有时也可以是-1到1的区间. 还有一种叫做 standard deviation normalization,他会将所有特征数据缩放成 平均值为0, 方差为1. 使用这些标准化手段. 我们不仅可以快速推进机器学习的学习速度, 还可以避免机器学习 学得特扭曲。
来看看sklearn实现:

 

from sklearn.datasets import load_iris
iris = load_iris()
# Z-Score
from sklearn.preprocessing import StandardScaler
print StandardScaler().fit_transform(iris.data)

关于再解释一下:

 

z-score就是我们之前说的standard deviation normalization

接着是 min max normalization

 

from sklearn.datasets import load_iris
iris = load_iris()
from sklearn.preprocessing import MinMaxScaler
print MinMaxScaler().fit_transform(iris.data)

标准化大概就是这个样子了。

 

to be continued...

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值