数据源
特征抽取是数据挖掘人物最为重要的一环,一般而言它对最终结果的影响腰搞过数据挖掘算法本身,如何选取更好的特征没有严格的规定,凭借对数据的理解,还有数据挖掘经验,还不够,还要不停的探索尝试,同时也需要一我们对于某些不是特征的数据进行数据挖掘的时候第一步就是把现实用特征表示出来,然后我们才可以使用数据挖掘找到我们问题的答案。
特征选择的另一个优点诗:降低真是世界的复杂度,模型总比现实更容易曹总,但是降低复杂度的同时也会忽略很多细节,举个例子,我们将大于等于180的人称之为高个,剩下的称为矮个子,179和181就被分为了矮个子和高个子,实际上这两个人身高是差不多的,却被分到截然不同的类别,这个时身高1.3的就会被认为和179的‘差不多高’。这就是离散化不好的一点,也是在建模中需要考虑的部分。
首先看一下我们今天的数据,数据集用特征描述了一个个活生生的人及其所处的环境,背景,生活状况。我们先看一下
In [1]: import numpy as np
In [2]: import pandas as pd
In [3]: adult = pd.read_csv('/Users/gn/scikit--learn/adult.data',header=None)
In [4]: adult.columns = ["Age", "Work-Class", "fnlwgt", "Education",
...: "Education-Num",
...: "Marital-Status", "Occupation",
...: "Relationship",
...: "Race", "Sex", "Capital-gain",
...: "Capital-loss",
...: "Hours-per-week", "Native-Country",
...: "Earnings-Raw"]
In [5]: adult.dropna(how='all', inplace=True)
In [6]: adult.head()
Out[6]:
Age Work-Class fnlwgt ... Hours-per-week Native-Country Earnings-Raw
0 39 State-gov 77516 ... 40 United-States <=50K
1 50 Self-emp-not-inc 83311 ... 13 United-States <=50K
2 38 Private 215646 ... 40 United-States <=50K