逻辑回归实战：从疝气病症预测病马的死亡率

最新推荐文章于 2024-08-01 15:24:46 发布

多选参数

最新推荐文章于 2024-08-01 15:24:46 发布

阅读量2.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32962151/article/details/106670432

版权

下面使用Logistic回归来预测患有疝病的马的存活问题，数据集中包含了368个样本和28个特征。数据集中包含了医院检测马疝病的一些指标，有的指标比较主观，有的指标难以测量，例如马的疼痛级别。另外需要说明的是，除了部分指标主观和难以测量外，该数据还存在一个问题，数据集中有30%的值是缺失的。首先在使用Logistic回归预测病马的生死之前，需要处理数据集中的数据缺失问题。

1. 准备数据：处理数据中的缺失值

对于有些存在缺失的数据来说，扔掉和重新获取是不可取的，所以有以下这些方法来解决数据缺失的问题：

使用可用特征的均值来填补缺失值
使用特殊值来填补缺失值，如-1
忽略有缺失值的样本
使用相似样本的均值添补缺失值
使用另外的机器学习算法预测缺失值

对于该实战中使用的数据集，在预处理阶段需要做两件事：

所有的缺失值必须用一个实数值来替换，这里选择实数0来替换所有缺失值，恰好能适用于Logistic回归，这样做在更新时不会影响回归系数的值。另外由于sigmoid(0)=0.5，即它对结果的预测不具有任何倾向性，因此上述做法也不会对误差造成任何影响。
测试数据集中发现一条数据的类别标签已经缺失，那么应将这条数据丢弃，这是因为类别标签与特征不同，很难确定采用某

最低0.47元/天解锁文章

关注

0
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。