python数据挖掘(6.转换器抽取特征)

数据源
特征抽取是数据挖掘人物最为重要的一环,一般而言它对最终结果的影响腰搞过数据挖掘算法本身,如何选取更好的特征没有严格的规定,凭借对数据的理解,还有数据挖掘经验,还不够,还要不停的探索尝试,同时也需要一我们对于某些不是特征的数据进行数据挖掘的时候第一步就是把现实用特征表示出来,然后我们才可以使用数据挖掘找到我们问题的答案。
特征选择的另一个优点诗:降低真是世界的复杂度,模型总比现实更容易曹总,但是降低复杂度的同时也会忽略很多细节,举个例子,我们将大于等于180的人称之为高个,剩下的称为矮个子,179和181就被分为了矮个子和高个子,实际上这两个人身高是差不多的,却被分到截然不同的类别,这个时身高1.3的就会被认为和179的‘差不多高’。这就是离散化不好的一点,也是在建模中需要考虑的部分。
首先看一下我们今天的数据,数据集用特征描述了一个个活生生的人及其所处的环境,背景,生活状况。我们先看一下

In [1]: import numpy as np                                                      

In [2]: import pandas as pd                                                     

In [3]: adult = pd.read_csv('/Users/gn/scikit--learn/adult.data',header=None)   

In [4]: adult.columns = ["Age", "Work-Class", "fnlwgt", "Education", 
   ...:                                                         "Education-Num",
   ...:  "Marital-Status", "Occupation", 
   ...:                                                         "Relationship", 
   ...: "Race", "Sex", "Capital-gain", 
   ...:                                                         "Capital-loss", 
   ...: "Hours-per-week", "Native-Country", 
   ...:                                                         "Earnings-Raw"] 

In [5]: adult.dropna(how='all', inplace=True)                                   

In [6]: adult.head()                                                            
Out[6]: 
   Age         Work-Class  fnlwgt  ... Hours-per-week  Native-Country Earnings-Raw
0   39          State-gov   77516  ...             40   United-States        <=50K
1   50   Self-emp-not-inc   83311  ...             13   United-States        <=50K
2   38            Private  215646  ...             40   United-States        <=50K
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值