字符串类型数据预处理的一个简单小方法

最新推荐文章于 2023-11-20 12:54:59 发布

张林濮

最新推荐文章于 2023-11-20 12:54:59 发布

阅读量1.4k

点赞数

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ramer42/article/details/83242467

版权

在参与kaggle的House Prices竞赛时，面对81列数据，作者编写了一个简单方法，能自动将字符串类型特征按数字顺序编码。对于包含NAN或空值的元素，该方法会填充0，以方便后续的数据处理。然而，方法运行效率较低，每处理一列需要约10秒，并且触发了SettingWithCopyWarning警告，这与DataFrame的链式运算问题有关，作者计划进一步研究解决。

摘要由CSDN通过智能技术生成

今天开始试着去做kaggle上的入门竞赛House Prices，因为数据集有81列，即81个特征，一列一列处理数据很头疼，于是想自己写几个方法
先写了一个简单的，可以自动把字符串类型的特征按数字顺序编码，如果数据中含有NAN或空元素就填入0，方便之后的处理
写出来之后发现运行效率很低，处理一列需要十秒，更头疼了……
还有就是弹出了SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame，是因为链式运算的问题，现在还不理解，先马一下。

def com(column):
    a = train[column].value_counts().index
    if trai

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

张林濮 CSDN认证博客专家 CSDN认证企业博客

码龄7年

15: 原创

33万+: 周排名

217万+: 总排名

2万+: 访问

: 等级

448: 积分

9: 粉丝

12: 获赞

2: 评论

79: 收藏

私信

关注

热门文章

分类专栏

Java 12篇
教程 3篇
算法 2篇

最新评论

普林斯顿大学算法公开课第一周作业
豆豆517929: 不知道我出了什么差错。就是运行不了。打分也是失败的。后来直接网上下了几个原封不动直接提上去试试全都失败了。烦恼了。
从键盘格式化输入
邵玉斌: 没有计算原理说明，没有编译运行过程。没有结果测试。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。