今天在特征工程的时候,碰到一个小问题,通常我们读取文本的时候,pd.read_csv()就可以很方便读取,但我拿到的这份数据集比较奇葩,列之间使用空格来间隔,但是空格的长度不一致。数据大概长这样【img/Sheer_Woven_Blouse/img_00000001.jpg 031 081 168 259】
需要对空格进行统一,废话不多说,下面是我的代码
写一个递归函数吧.
行数太多,简化一下代码.
更简单的方法,用正则表达式直接替换.
以上三种方法都可以实现多空格的替换,将【img/Sheer_Woven_Blouse/img_00000001.jpg 031 081 168 259】替换为【img/Sheer_Woven_Blouse/img_00000001.jpg 031 081 168 259】
本文来自机器在学习博文