特征工程3

最新推荐文章于 2023-11-30 12:49:14 发布

Up_梅子酒

最新推荐文章于 2023-11-30 12:49:14 发布

阅读量106

点赞数

分类专栏： Feature Engineering 文章标签： python

本文链接：https://blog.csdn.net/eerywh/article/details/114048234

版权

Feature Engineering 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

第四章：特征构建：生成新的特征

import pandas as pd
from sklearn.base import TransformerMixin
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

X = pd.DataFrame({'city':['tokyo', None, 'london', 'seattle', 'san francisco', 
                  'tokyo'], 
                  'boolean':['yes', 'no', None, 'no', 'no', 'yes'], 
                  'ordinal_column':['somewhat like', 'like', 'somewhat like','like','somewhat like', 'dislike'], 
                  'quantitative_column':[1, 11, -.5, 10, None, 20]})

print(X)

            city boolean ordinal_column  quantitative_column
0          tokyo     yes  somewhat like                  1.0
1           None      no           like                 11.0
2         london    None  somewhat like                 -0.5
3        seattle      no           like                 10.0
4  san francisco      no  somewhat like                  NaN
5          tokyo     yes        dislike                 20.0

X['ordinal_column'].hist()

<AxesSubplot:>

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q1ZeHR2Y-1614179523073)(output_4_1.png)]

X.isnull().sum()

city                   1
boolean                1
ordinal_column         0
quantitative_column    1
dtype: int64

X['city'].value_counts().index[0]   #获取某一列最常见的元素

'tokyo'

自定义填充器

from sklearn.base import TransformerMixin

class CustomCategoryImputer(TransformerMixin):
    def __init__(self,cols = None):
        self.cols = cols
        
    def transform(self,df):
        X = df.copy()
        for col in self.cols:
            X[col].fillna(X[col].value_counts().index[0],inplace = True)
        return X
    
    def fit(self,*_):
        return self

import pprint

pprint.pprint(X)

            city boolean ordinal_column  quantitative_column
0          tokyo     yes  somewhat like                  1.0
1           None      no           like                 11.0
2         london    None  somewhat like                 -0.5
3        seattle      no           like                 10.0
4  san francisco      no  somewhat like                  NaN
5          tokyo     yes        dislike                 20.0

cci = CustomCategoryImputer(cols = ['city','boolean'])
cci.fit_transform(X)

	city	boolean	ordinal_column	quantitative_column
0	tokyo	yes	somewhat like	1.0
1	tokyo	no	like	11.0
2	london	no	somewhat like	-0.5
3	seattle	no	like	10.0
4	san francisco	no	somewhat like	NaN
5	tokyo	yes	dislike	20.0

自定义定量填充器

from sklearn.impute import SimpleImputer

class CustomQuantitativeImputer(TransformerMixin):
    def __init__(self,cols = None, strategy = None):
        self.cols = cols
        self.strategy = strategy
        
    def transform(self,df):
        X = df.copy()
        impute = SimpleImputer(strategy = self.strategy)
        for col in self.cols:
            X[col] = impute.fit_transform(X[[col]])
        return X
    
    def fit(self,*_):
        return self

cqi = CustomQuantitativeImputer(cols = ['quantitative_column'],strategy='median')
cqi.fit_transform(X)

	city	boolean	ordinal_column	quantitative_column
0	tokyo	yes	somewhat like	1.0
1	None	no	like	11.0
2	london	None	somewhat like	-0.5
3	seattle	no	like	10.0
4	san francisco	no	somewhat like	10.0
5	tokyo	yes	dislike	20.0

# 使用流水线的方式

from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

imputer = Pipeline([('quant',cqi),('category',cci)])
imputer.fit_transform(X)

	city	boolean	ordinal_column	quantitative_column
0	tokyo	yes	somewhat like	1.0
1	tokyo	no	like	11.0
2	london	no	somewhat like	-0.5
3	seattle	no	like	10.0
4	san francisco	no	somewhat like	10.0
5	tokyo	yes	dislike	20.0

	city	boolean	ordinal_column	quantitative_column
0	tokyo	yes	somewhat like	1.0
1	None	no	like	11.0
2	london	None	somewhat like	-0.5
3	seattle	no	like	10.0
4	san francisco	no	somewhat like	NaN
5	tokyo	yes	dislike	20.0

编码分类变量

定类等级的编码

主要方式是将分类数据转换为虚拟变量

# 自定义虚拟化器

class CustomDummifier(TransformerMixin):
    def __init__(self,cols = None):
        self.cols = cols 
    
    def transform(self,df):
        return pd.get_dummies(X,columns = self.cols)
    
    def fit(self,*_):
        return self

cd = CustomDummifier(cols = ['boolean','city'])
cd.fit_transform(X)

	ordinal_column	quantitative_column	boolean_no	boolean_yes	city_london	city_san francisco	city_seattle	city_tokyo
0	somewhat like	1.0	0	1	0	0	0	1
1	like	11.0	1	0	0	0	0	0
2	somewhat like	-0.5	0	0	1	0	0	0
3	like	10.0	1	0	0	0	1	0
4	somewhat like	NaN	1	0	0	1	0	0
5	dislike	20.0	0	1	0	0	0	1

### 定序等级的编码

class CustomerEncoder(TransformerMixin):
    def __init__(self,col,ordering = None):
        self.col = col
        self.ordering = ordering
        
    def transform(self,df):
        X = df.copy()
        X[self.col] = X[self.col].map(lambda x : self.ordering.index(x))
        return X 
    
    def fit(self,*_):
        return self

ce = CustomerEncoder(col='ordinal_column', ordering = ['dislike', 'somewhat like',
'like'])
ce.fit_transform(X)

	city	boolean	ordinal_column	quantitative_column
0	tokyo	yes	1	1.0
1	None	no	2	11.0
2	london	None	1	-0.5
3	seattle	no	2	10.0
4	san francisco	no	1	NaN
5	tokyo	yes	0	20.0

连续特征分箱

pd.cut(X['quantitative_column'],bins =3)

0     (-0.52, 6.333]
1    (6.333, 13.167]
2     (-0.52, 6.333]
3    (6.333, 13.167]
4                NaN
5     (13.167, 20.0]
Name: quantitative_column, dtype: category
Categories (3, interval[float64]): [(-0.52, 6.333] < (6.333, 13.167] < (13.167, 20.0]]

pd.cut(X['quantitative_column'],bins = 3, labels = False)

0    0.0
1    1.0
2    0.0
3    1.0
4    NaN
5    2.0
Name: quantitative_column, dtype: float64

class CustomCutter(TransformerMixin):
    def __init__(self, col, bins, labels=False):
        self.labels = labels
        self.bins = bins 
        self.col = col

    def transform(self, df):
        X = df.copy()
        X[self.col] = pd.cut(X[self.col], bins=self.bins, labels=self.labels)
        return X

    def fit(self, *_):
        return self

cc = CustomCutter(col='quantitative_column', bins = 3)

cc.fit_transform(X)

	city	boolean	ordinal_column	quantitative_column
0	tokyo	yes	somewhat like	0.0
1	None	no	like	1.0
2	london	None	somewhat like	0.0
3	seattle	no	like	1.0
4	san francisco	no	somewhat like	NaN
5	tokyo	yes	dislike	2.0

创建流水线

pipeline = Pipeline([('quant',cqi),('category',cci),('dummify',cd),('encode',ce),('cut',cc)])

print(X)

            city boolean ordinal_column  quantitative_column
0          tokyo     yes  somewhat like                  1.0
1           None      no           like                 11.0
2         london    None  somewhat like                 -0.5
3        seattle      no           like                 10.0
4  san francisco      no  somewhat like                  NaN
5          tokyo     yes        dislike                 20.0

pipeline.fit_transform(X)

	ordinal_column	quantitative_column	boolean_no	boolean_yes	city_london	city_san francisco	city_seattle	city_tokyo
0	1	0.0	0	1	0	0	0	1
1	2	1.0	1	0	0	0	0	0
2	1	0.0	0	0	1	0	0	0
3	2	1.0	1	0	0	0	1	0
4	1	NaN	1	0	0	1	0	0
5	0	2.0	0	1	0	0	0	1

Up_梅子酒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征工程3

第四章：特征构建：生成新的特征import pandas as pdfrom sklearn.base import TransformerMixinimport pandas as pdimport numpy as npfrom matplotlib import pyplot as pltX = pd.DataFrame({'city':['tokyo', None, 'london', 'seattle', 'san francisco', 'to
复制链接

扫一扫