数据采用泰坦尼克号数据,从官网获取
首先注册账号:可能要使用到vpn,没有可以不学了(bushi)
从官网下载数据集,打开文件就长这个样(也可以head)可以看出来有很多很扯淡的数据
数据预处理:1.特征选择
.scaling 缩放 minmaxscaler 最大最小缩放(还有standardscaler)
此处可采用
dataset[['Age','SibSp']].hist(figsize=(10,4)) 画出柱状图,观察数据分布(就是说,第二张图好丑)
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
dataset=pd.read_csv('C:/Users/PengY/Desktop/train.csv')
print(dataset.columns)
minmax_scale=MinMaxScaler()
xtrain=minmax_scale.fit_transform(dataset[['Age','SibSp']])
pd.DataFrame(xtrain).hist(figsize=(10,4))
plt.show()
minmaxscaler的代码
然而出现异常值这种处理方法可能直接崩溃,肿么办?
rank :根据范围赋值
rank([-100,0,100])=[0,1,2]
此处使用scipy.stats.rankdata
2.特征构建(by understanding)
如果有房子的总价格与面积,我们可以求得房价。
甚至是商品涨价的小数部分
EDA,SVM,PCA