机器学习-每日一坑

问题描述
若样本含有混合数据类型,比如数据本身是int,但混合进字符型,那么读取后,该列dtypes会升级成object。 导致数据使用不便。如下:

列名:gl_id_h0_time,数据类型:object
列名:gl_id_h0_list_level,数据类型:object
列名:gl_id_h0_group_num,数据类型:object
列名:gl_id_h0_orgType,数据类型:object
列名:gl_id_h0_orgnum,数据类型:object
列名:gl_id_h1_time,数据类型:object
列名:gl_id_h1_list_level,数据类型:object
列名:gl_id_h1_group_num,数据类型:object
列名:gl_id_h1_orgType,数据类型:object
列名:gl_id_h1_orgnum,数据类型:object
列名:gl_id_h2_time,数据类型:object
列名:gl_id_h2_list_level,数据类型:object
列名:gl_id_h2_group_num,数据类型:object
列名:gl_id_h2_orgType,数据类型:object
列名:gl_id_h2_orgnum,数据类型:object
列名:gl_id_h3_time,数据类型:object
列名:gl_id_h3_list_level,数据类型:object
列名:gl_id_h3_group_num,数据类型:object

解决方案:
读取数据时,跳过目标行,代码如下:
pd.read_csv("./sample/test.csv",encoding="utf-8",skiprows=[1])

经验总结:
1、skiprows是个集合,可以对数据进行分析有问题的记录,获取行索引,进行批量跳过。
2、读取数据之后进行问题数据删除,无法解决该问题,因为数据已经完成了读取
3、结合 data.select_dtypes(include=["int64","float64"]) 进行目标列数据选取

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值