在Jupyter上简单的跑一个机器学习分析案例

最新推荐文章于 2024-05-27 17:57:02 发布

敬叫唤

最新推荐文章于 2024-05-27 17:57:02 发布

阅读量3.3k

点赞数 1

分类专栏：机器学习与深度学习文章标签： jupyter python

本文链接：https://blog.csdn.net/jingjiaohuan/article/details/127590973

版权

机器学习与深度学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

这篇文章是闲暇时间里，作者对python的复习，对数据预处理、数据可视化、机器学习知识的复习巩固，仅用于比赛准备。

注：程序全部paddle平台的jupyter上运行（如果安装了cuda的可以直接本机安装飞桨环境）；

本文大部分代码摘自：

Lab3 泰坦尼克号生还预测_学习案例 - 飞桨AI Studio

一、准备数据

导包(万事先导包)

import seaborn as sns
import pandas as pd
import numpy as np

为此我们专们准备的最常用的数据集，TITANIC号船员数据集。(数据集可以到上述链接下载，也可行通过seaborn包实现在线导入)

tit = sns.load_dataset("titanic")

导入表格文件

 # 从网站直接下载。

# tit = sns.load_dataset("titanic") 

# 或者直接通过函数加载。

features = pd.read_csv("data/data82227/titanic_dataset.csv")

详情如图

二、数据预处理

1 数据预览

features.head() #预览

空值预览(这里我已经缺失值处理过了)

features.isnull().sum()  # 列出所有字段

2 缺失值处理

缺失值处理种方式：

#直接删除

# Age 字段缺失值处理
import seaborn as sns
import numpy as np
sns.distplot(features["Age"].dropna(),hist=True,kde=True)

运行结果：可以看出 age 列处理后的直方分布

替换策略：

中值替换（两种选一种即可）

# 缺失值处理方式一： 使用中值来进行替换
# replace 接口 https://pandas.pydata.org/pandas-
# docs/stable/reference/api/pandas.DataFrame.replace.html
features["Age"].replace(np.nan,np.nanmedian(features["Age"]),inplace=True)

直接删除

# 缺失值处理方式二： 直接删除。 主要考虑到cabin这个字段缺失值过多，
# 并且客舱号本身没有过多含义，所以删去后对结果影响不大
features.drop("Cabin",axis=1,inplace=True)

# 除了Age类别外，还需要乘客的等级Pclass 进行中值替换

# 由于乘客是从S港口登船的，并且社会阶层是3. 所有我们可以计算这一类别乘客的中值来替代
pclass_3_fares = features.query('Pclass==3 & Embarked=="S"')["Fare"]
pclass_3_fares = pclass_3_fares.replace(np.nan,0)
median_fare = np.median(pclass_3_fares)
features["Fare"].replace(np.nan,median_fare,inplace=True)

# 特征替换，将文本转为标记的数字，才能用来训练

# 对于Sex数据，我们也需要进行处理，虽然它没有缺失值，但是 male，female并不能用来训练
features["Sex"].replace(["male","female"],[1,0],inplace=True)

检查处理结果是否还有null数据

features.isnull().sum()

3 数据清洗

到现在，数据是完整的，但是仍然有一些特征并不是数字或者向量的形式表征的，我们对这些特征进行独热编码（one-hot）表示

one-hot：把类别的变量值转换成0和1，并且形成一个矩形表，自身类别用1表示，其余类别用0表示

features = pd.get_dummies(features)

检视数据

features.head()

4 数据分割

这个部分跟上一个实验的内容一样，我们需要把完整的数据集拆分为
1. 特征与标签
2. 训练集和测试集

提示：特征与标签就不要像上次那样去分割了，可以直接通过dataframe的接口来定位column。需要用到的代码，如果你认真看完了我上面的代码，相信不在话下
训练集和测试集的分割我们仍然还是可以使用 train_test_split()

from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
def split_data(data,y_feature):
    return train_test_split(data,data[y_feature],test_size=0.25,random_state=33)
    raise NotImplementedError


x_train,x_test,y_train,y_test = split_data(features,'Survived')

四、模型预测

本次实验我们选用决策树和逻辑回归来进行建模分类，建议大家先重温一下相关理论知识，这里不再重复。

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# 创建决策树模型
dtc = DecisionTreeClassifier()

# 训练模型
dtc.fit(x_train,y_train)

# 预测训练集和测试集结果
dtc_pred = dtc.predict(x_test)

# 计算精确度
dtc_acc = round(accuracy_score(dtc_pred,y_test)*100,2)
print(f"decision tree accuracy is:{dtc_acc}%")

运行结果：

使用决策树模型当前数据集下预测的准确率为100%

这里使用的是逻辑回归模型：


from sklearn.linear_model import LogisticRegression
# 创建逻辑回归模型
lr = LogisticRegression()

# 训练模型
lr.fit(x_train,y_train)

# 预测训练集和测试集结果
lr_pred = lr.predict(x_test)

# 计算精确度
lr_acc = round(accuracy_score(lr_pred,y_test)*100,2)
print(f"logistic accuracy is{lr_acc}%")

运行结果：

通过以上6列属性进行预测

准确率近似100%