算是爬虫中对庞大的数据进行预处理的很重要的一步。
经过一段时间的工作不断完善,功能上基本实现了我的预期。
import pandas as pd
import numpy as np
import re
import csv
import sys
这是我的引用import各种包。
1. 合并csv文件(在cmd中进行操作)
cat *.csv>all.csv
或者
cat 1.csv 2.csv 3.csv...>all.csv
(先通过cmd进入目录内,然后用上面的指令合并多个csv为all.csv)
1. 读csv文件
df=pd.read_csv('/Users/hey/Desktop/楼宇办公自动化_nodup.csv')
df=df.astype(str)
第一行是读指定目录下的特定文件,写的绝对路径
第二行通过转换里面的数据为str也就是字符串以便操作
3. 删除重复
df.drop_duplicates('name', 'first', inplace=True)
inplace=True意思就是应用修改到文件中,如果只是想在环境中跑跑试试可以去掉inplace=True,这样新的导出文件就不会有改动。
‘name’这一列写的是产品具体品牌型号等等,通过检查name就知道有没有商品爬重复了。
4. 写入CSV文件
df = df.to_csv("/Users/hey/Desktop/楼宇办公自动化_nodup.csv",index=0)