机器学习项目-CSDN博客

本文链接：https://blog.csdn.net/SEAL_01/article/details/140000814

机器学习项目

数据预处理
1.1可视化
导入库：
“import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns #统计建模
from sklearn.preprocessing import StandardScaler
from scipy.stats import norm
from scipy import stats #统计
import warnings
warnings.filterwarnings(‘ignore’)
“
直方图-查看相关数据分布：
“
sns.distplot(df_train[‘SalePrice’])
“

箱线图-查看数据分布
“
var = ‘OverallQual’
data = pd.concat([df_train[‘SalePrice’],df_train[‘OverallQual’]],axis = 1)
f,ax = plt.subplots(figsize = (8,6)) #subplots 创建一个画像（figure）和一组子图（subplots）
fig = sns.boxplot(x = var,y = ‘SalePrice’,data = data)
fig.axis (ymin = 0,ymax = 800000)
“

散点图-查看数据之间关联关系：
“
var = ‘GrLivArea’
data = pd.concat([df_train[‘SalePrice’],df_train[var]],axis = 1)
data.plot.scatter(x = var,y = ‘SalePrice’,ylim = (0,800000));
“

1.2数据清洗
1.缺失值处理：
1)忽略元组：
2）人工填充缺失值：
3）自动填充缺失值：全局常数，属性的中心度量（均值或中位数），最可能的值

统计各个属性缺失值：
“total = df.isnull().sum().sort_values(ascending = False)
percent = (df.isnull().sum() / df.isnull().count()).sort_values(ascending = False)
missing_data = pd.concat([total,percent],axis = 1,keys = [‘Total’,‘Percent’])
missing_data
“
忽略属性都为null的元组：

“df_cleaned = df.dropna(how=‘all’)
df_cleaned“

缺失值填充，采用列均值：
“imp = SimpleImputer(missing_values = np.nan,strategy = ‘mean’)
imp.fit(df)
df_cleaned_1 = imp.transform(df_cleaned)
df_cleaned_1”