数据预处理和数据特征工程

数据预处理

from sklearn.preprocessing import MinMaxScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
import pandas as pd
pd.DataFrame(data)
scaler = MinMaxScaler() #实例化,默认在0~1之间,也可指定范围
scaler = scaler.fit(data)
result = scaler.transform(data)
result

在这里插入图片描述

#按极差缩放
scaler = MinMaxScaler(feature_range=[5,10]) #实例化,默认在0~1之间,也可指定范围
scaler = scaler.fit(data)
result = scaler.transform(data)
result

在这里插入图片描述

#按标准差缩放
from sklearn.preprocessing import StandardScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
scaler = StandardScaler()
scaler = scaler.fit(data)
print(scaler.mean_)
print(scaler.var_)

在这里插入图片描述

#缺失值处理
df1 = pd.DataFrame({'A':['A0','A1','A2','A4'],'C':['C0','C1','C2',None]})
df1

在这里插入图片描述
在这里插入图片描述

from sklearn.preprocessing import MinMaxScaler
import pandas as pd
data = [[-1,2],[3,4],[5,6],[1,10]]
pd.DataFrame(data)

##数据归一化
scalar = MinMaxScaler()
scalar_fit = scalar.fit(data)
scalar.transform(data)

##数据标准化
from sklearn.preprocessing import StandardScaler
scalar = StandardScaler()
scalar_fit = scalar.fit(data)
scalar.transform(data)

##空值填充
ti_train = pd.read_csv(r'titanic_train.csv')
ti_train['Age'] =ti_train['Age'].fillna(ti_train['Age'].mean())
ti_train01 = ti_train[['Age','PassengerId']]
ti_train01.info()

#sklearn 空值填充
from sklearn.impute import SimpleImputer
mode = SimpleImputer(strategy='mean')
mode_fit = mode.fit(ti_train['Age'].values.reshape(-1, 1))
ti_train['Age']=mode.transform(ti_train['Age'].values.reshape(-1, 1))
ti_train01 = ti_train[['Age','PassengerId']]
ti_train01.info()
# 1、空值、异常值处理 (数据、业务)
# 2、分析数据 函数关系
# 3、离散型(要不要oneHot)连续型变量(要不要离散化)
# 4、归一化、标准化
# 5、特征工程
# 以上步骤可以说是数据过滤,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

在这里插入图片描述

数据特征工程

特征选择:方差过滤、卡方检验、皮尔逊相关系数、F检验、互信息法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值