数值型变量处理

数据采用泰坦尼克号数据,从官网获取

首先注册账号:可能要使用到vpn,没有可以不学了(bushi)

从官网下载数据集,打开文件就长这个样(也可以head)可以看出来有很多很扯淡的数据                     

数据预处理:1.特征选择

.scaling 缩放  minmaxscaler  最大最小缩放(还有standardscaler)

此处可采用

dataset[['Age','SibSp']].hist(figsize=(10,4))    画出柱状图,观察数据分布(就是说,第二张图好丑)

import pandas as pd
import matplotlib.pyplot as plt
from  sklearn.preprocessing import MinMaxScaler
dataset=pd.read_csv('C:/Users/PengY/Desktop/train.csv')
print(dataset.columns)
minmax_scale=MinMaxScaler()
xtrain=minmax_scale.fit_transform(dataset[['Age','SibSp']])
pd.DataFrame(xtrain).hist(figsize=(10,4))
plt.show()

  minmaxscaler的代码 

然而出现异常值这种处理方法可能直接崩溃,肿么办?

rank :根据范围赋值

rank([-100,0,100])=[0,1,2]

此处使用scipy.stats.rankdata

2.特征构建(by understanding)

如果有房子的总价格与面积,我们可以求得房价。

甚至是商品涨价的小数部分

EDA,SVM,PCA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值