按照公司分类好数据后发现了很多不规范的格式,如下:
1. 爬虫的同学把数组格式的数据直接存储
title中的内容直接通过strip去掉多余的中括号的单引号
content中的内容,需要先去掉中括号`[]`,然后按照逗号`,`切分,切分的内容去掉两端单引号再加上`\n`表示分行
2. 爬虫内容中还包括特殊字符 `\xan`
清洗结果:
按照公司分类好数据后发现了很多不规范的格式,如下:
1. 爬虫的同学把数组格式的数据直接存储
title中的内容直接通过strip去掉多余的中括号的单引号
content中的内容,需要先去掉中括号`[]`,然后按照逗号`,`切分,切分的内容去掉两端单引号再加上`\n`表示分行
2. 爬虫内容中还包括特殊字符 `\xan`
清洗结果: