动手学数据分析task05 数据建模及模型评估

特征工程

缺失值的填充

分类型变量

  • 填充某个缺失值字符(NA)
  • 用最多类别的进行填充

连续型变量 填充均值、中位数、众数

第一步:查看所有属性列中有哪些有缺失值

train.isnull().sum().sort_values(ascending=False)

在这里插入图片描述

第二步:查看某一个属性列有多少种取值,并排序

在这里插入图片描述

  • 注意两种区别:一种是对index排序,一种是对value排序

第三步:根据是连续型还是分类型选择不同方法填充

在这里插入图片描述

第四步 查看并检验

在这里插入图片描述

编码分类型变量(机器学习只可以处理数值)

data = pd.get_dummies(data)
是利用pandas实现one hot encode的方式

在这里插入图片描述
处理前后对比:

在这里插入图片描述

模型搭建

在这里插入图片描述

切分训练集和测试集

切割方法

  • 按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
  • 按目标变量分层进行等比切割

注意

  • 要设置随机种子以便复现
  • 可以先确定好x和y在切割,也可以先切割完在找x和y

逻辑回归模型

  • 可以调节的参数就是max_iter

在这里插入图片描述

随机森林模型

在这里插入图片描述
在这里插入图片描述

预测

  • predict是预测结果
  • predict_proba是对于所有分类结果的分类概率;在本文中,只有幸存与否两种结果,所以对于两个的概率

在这里插入图片描述

模型评估

交叉验证

在这里插入图片描述
在这里插入图片描述

混淆矩阵

在这里插入图片描述
在这里插入图片描述

ROC曲线

  • ROC曲线下面所包围的面积越大越好
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值