R与Python手牵手：特征工程（数值型变换）-CSDN博客

本文链接：https://blog.csdn.net/kMD8d5R/article/details/84880803

640?wx_fmt=gif

作者：黄天元，复旦大学博士在读，目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验，推广并加深R语言在业界的应用。

邮箱：huang.tian-yuan@qq.com

经常玩数据竞赛的人几乎达成了一个共识，就是建模过程大家都大同小异，但是特征工程则至关重要。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。这里将会介绍一些最基本的特征工程方法以及代码的实现，供大家参考。这次的数据可以在下面网站找到：

https://github.com/dipanjanS/practical-machine-learning-with-python/tree/master/notebooks/Ch04_Feature_Engineering_and_Selection/datasets

Python

基本设置

#加载包
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import numpy as np
import scipy.stats as spstats
#对图像输出的统一设置
%matplotlib inline
mpl.style.reload_library()
mpl.style.use('classic')
mpl.rcParams['figure.facecolor'] = (1, 1, 1, 0)
mpl.rcParams['figure.figsize'] = [6.0, 4.0]
mpl.rcParams['figure.dpi'] = 100
file_path = "G:/Py/practical-machine-learning-with-python-master/notebooks/Ch04_Feature_Engineering_and_Selection/"

原始数据特征

看到这份数据介绍的时候我也是惊呆了，这是关于“口袋妖怪”游戏的一个数据集，上面是关于一些妖怪们的攻击力、防御力、生命值、速度之类的参数，这个动画在我那个年代叫做“宠物小精灵”...Anyway，我们这个例子要看的就是数值型变量的基本特征，我们选其中三个进行观察。

poke_df = pd.read_csv(file_path + 'datasets/Pokemon.csv', 
  encoding='utf-8')
poke_df.head()

640?wx_fmt=png

（点击放大）

poke_df[['HP', 'Attack', 'Defense']].head()

640?wx_fmt=png

poke_df[['HP', 'Attack', 'Defense']].describe()

640?wx_fmt=png

另外，有的原始数值型变量是通过计数来表示的，比如下面例子是用户听歌的记录，其中listen_count记录的是用户听了一首歌多少次。

popsong_df = pd.read_csv(file_path + 'datasets/song_views.csv', encoding='utf-8')
popsong_df.head(10)

640?wx_fmt=png

二值化

关于听歌的案例，其实有一种粗略的理解，就是听过还是没听过，也就是不管听了多少次，只要不是没听过，就记录为1，其他是0.对于一些问题来说，听歌的绝对次数其实并不重要，比如一首歌的用户覆盖面，就不需要考虑哪些用户特别喜欢这首歌的问题。

#提取用户是否听过这首歌的特征
watched = np.array(popsong_df['listen_count']) 
watched[watched >= 1] = 1
popsong_df['watched'] = watched
popsong_df.head(10)

640?wx_fmt=png

#sklearn用专门的函数来完成这个任务
from sklearn.preprocessing import Binarizer
bn = Binarizer(threshold=0.9)
pd_watched = bn.transform([popsong_df['listen_count']])[0]
popsong_df['pd_watched'] = pd_watched
popsong_df.head(11)

640?wx_fmt=png

Binarizer函数的阈值设定含义为，小于等于阈值的值都视为0，大于阈值的则视为1.

取整

有时候数据真的不需要太高的精度，高精度的数据会占用更多的内存，因此可以取整处理。应该说这种操作肯定是会损失信息量的，但是如果在一些情况下5.9和6.3被认为没有差别的时候，取整也许更加合适。

items_popularity = pd.read_csv(file_path + 'datasets/item_popularity.csv', encoding='utf-8')
items_popularity

640?wx_fmt=png

这个例子中，pop_percent的数据是百分比，因此我们可以用几成或百分点为单位来表示。