数据处理与特征工程

最新推荐文章于 2024-07-12 15:37:04 发布

王乐乐0727

最新推荐文章于 2024-07-12 15:37:04 发布

阅读量603

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wanglele1/article/details/100136830

版权

机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

数据挖掘的五大流程

**
1.数据获取
2. 数据预处理
数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程
可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。
也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太大或太小
数据预处理的目的：让数据适应模型，匹配模型的需求
3. 特征工程：
特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程，可以通过挑选最相关的特征，提取特征以及创造特征来实现。其中创造特征又经常以降维算法的方式实现。
可能面对的问题有：特征之间有相关性，特征和标签无关，特征太多或太小，或者干脆就无法表现出应有的数据现象或无法展示数据的真实面貌
特征工程的目的：1) 降低计算成本，2) 提升模型上限
4. 建模，测试模型并预测出结果
5. 上线，验证模型效果
sklearn中的数据预处理和特征工程
在这里插入图片描述 **

第一章，数据预处理

**
一，数据的无量纲化
二，缺失值

import pandas as pd
import numpy as np
data = pd.read_csv(r'C:\Users\Administrator\python_learn\菜菜代码\data\Narrativedata.csv',index_col=0)
# index_col=0 讲第0列作为索引，不写则认为第0列为特征
data.head()

在这里插入图片描述 data.info()

`Age = data.loc[:,'Age'].values.reshape(-1,1)  #sklearn中的矩阵必须是2维
Age.shape`

在这里插入图片描述 使用随机森林填补数据

from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer()  #实例化 默认均值填补
imp_median = SimpleImputer(strategy='median')  #用中位数填补
imp_0 = SimpleImputer(strategy='constant',fill_value=0)  #用0填补
imp_mean = imp_mean.fit_transform(Age)             #fit_transform一步完成调取结果
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)

我们使用中位数填补

data.loc[:,'Age'] = imp_median
data.info()

在这里插入图片描述 使用众数填充Embarked

Embarked = data.loc[:,'Embarked'].values.reshape(-1,1) #将其转化为2维数组
imp_mode = SimpleImputer(strategy='most_frequent')
data.loc[:,'Embarked'] = imp_mode.fit_transform(Embarked)
data.info()

在这里插入图片描述 ps:使用numpy填充更加方便：

import pandas as pd
data_ = pd.read_csv(r'C:\Users\Administrator\python_learn\菜菜代码\data\Narrativedata.csv',index_col=0)
data_.head()

在这里插入图片描述 data_.info()
.fillna 在 DataFrame里面直接进行填充

data_.loc[:,'Age'] = data_.loc[:,'Age'].fillna(data_.loc[:,'Age'].median())

#.dropna(axis=0)删除所有缺失的行，.dropna(axis=1)删除所有缺失值的列
#参数inplace,为True表示在原数据集上进行修改，为False表示生成一个复制对象，不修改
#data = data_.drop(axis=0,inplace=False)

data_.dropna(axis=0,inplace=True)

在这里插入图片描述 三，处理分类型特征：编码与哑变量
现实中，许多标签和特征在数据收集完毕的时候，都不是以数字来表现的。比如说，学历的取值可以是[“小学”，“初中”，“高中”，“大学”]，付费方式可能包含[“支付宝”，“现金”，“微信”]等等。在这种情况下，为了让数据适应算法和库，我们必须将数据进行编码，即是说，将文字型数据转换为数值型
preprocessing.LabelEncoder：标签专用，能够将分类转换为分类数值

from sklearn.preprocessing import LabelEncoder
data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])
data.head(10)

在这里插入图片描述 preprocessing.OrdinalEncoder：特征专用，能够将分类特征转换为分类数值

from sklearn.preprocessing import OrdinalEncoder
data_ = data.copy()
OrdinalEncoder().fit(data.iloc[:,1:-1]).categories_
data_.iloc[:,1:-1] = OrdinalEncoder().fit_transform(data.iloc[:,1:-1])
data_.head()

在这里插入图片描述 preprocessing.OneHotEncoder：独热编码，创建哑变量

data.head()

在这里插入图片描述

from sklearn.preprocessing import OneHotEncoder
x = data.iloc[:,1:-1]
x.head()

在这里插入图片描述

result = OneHotEncoder(categories='auto').fit_transform(x).toarray()
x.shape
newdata = pd.concat([data,pd.DataFrame(result)],axis=1)
newdata.head()

在这里插入图片描述

newdata.drop(['Sex','Embarked'],axis=1,inplace=True)
newdata.columns = ["Age","Survived","Female",'Male',"Emnarked_c","Embarked_q","Embarked_s"]
newdata.head()

在这里插入图片描述