我有一篇文章写的关于爬猪八戒网的一些公司名,但是有重复,怎么去重?
for result in results:
if result.text not in res:
res.append(result.text)
count+=1
可以添加一个list,把你爬下的内容放进去,然后用if判断,看是否已经进行爬取,如果没有就添加。
但是这么爬下来有个问题就是他不是汉字,所以还要进行编码转换。
for r in res:
s=r.encode("gbk")
print s
这样就可以转换成汉字了,去重OK。