python数据挖掘（6.转换器抽取特征）

最新推荐文章于 2020-09-16 18:25:29 发布

文件输传手助

最新推荐文章于 2020-09-16 18:25:29 发布

阅读量220

点赞数

分类专栏： python数据挖掘文章标签： python数据碗蕨

本文链接：https://blog.csdn.net/weixin_43074152/article/details/103501152

版权

数据源
特征抽取是数据挖掘人物最为重要的一环，一般而言它对最终结果的影响腰搞过数据挖掘算法本身，如何选取更好的特征没有严格的规定，凭借对数据的理解，还有数据挖掘经验，还不够，还要不停的探索尝试，同时也需要一我们对于某些不是特征的数据进行数据挖掘的时候第一步就是把现实用特征表示出来，然后我们才可以使用数据挖掘找到我们问题的答案。
特征选择的另一个优点诗：降低真是世界的复杂度，模型总比现实更容易曹总，但是降低复杂度的同时也会忽略很多细节，举个例子，我们将大于等于180的人称之为高个，剩下的称为矮个子，179和181就被分为了矮个子和高个子，实际上这两个人身高是差不多的，却被分到截然不同的类别，这个时身高1.3的就会被认为和179的‘差不多高’。这就是离散化不好的一点，也是在建模中需要考虑的部分。
首先看一下我们今天的数据，数据集用特征描述了一个个活生生的人及其所处的环境，背景，生活状况。我们先看一下

In [1]: import numpy as np                                                      

In [2]: import pandas as pd                                                     

In [3]: adult = pd.read_csv('/Users/gn/scikit--learn/adult.data',header=None)   

In [4]: adult.columns = ["Age", "Work-Class", "fnlwgt", "Education", 
   ...:                                                         "Education-Num",
   ...:  "Marital-Status", "Occupation", 
   ...:                                                         "Relationship", 
   ...: "Race", "Sex", "Capital-gain", 
   ...:                                                         "Capital-loss", 
   ...: "Hours-per-week", "Native-Country", 
   ...:                                                         "Earnings-Raw"] 

In [5]: adult.dropna(how='all', inplace=True)                                   

In [6]: adult.head()                                                            
Out[6]: 
   Age         Work-Class  fnlwgt  ... Hours-per-week  Native-Country Earnings-Raw
0   39          State-gov   77516  ...             40   United-States        <=50K
1   50   Self-emp-not-inc   83311  ...             13   United-States        <=50K
2   38            Private  215646  ...             40   United-States        <=50K

最低0.47元/天解锁文章

文件输传手助

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python数据挖掘（6.转换器抽取特征）

数据源特征抽取是数据挖掘人物最为重要的一环，一般而言它对最终结果的影响腰搞过数据挖掘算法本身，如何选取更好的特征没有严格的规定，凭借对数据的理解，还有数据挖掘经验，还不够，还要不停的探索尝试，同时也需要一我们对于某些不是特征的数据进行数据挖掘的时候第一步就是把现实用特征表示出来，然后我们才可以使用数据挖掘找到我们问题的答案。特征选择的另一个优点诗：降低真是世界的复杂度，模型总比现实更容易曹总，...
复制链接

扫一扫

专栏目录