爬虫abc
LKJLKJKL
这个作者很懒,什么都没留下…
展开
-
1.1 python爬虫++++ user-agent池
''' 包含三个函数: ''' import random user_agent_list_2 = [ # Opera "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1...原创 2019-06-03 11:24:45 · 515 阅读 · 0 评论 -
python爬虫过程中,遇到同类内容url格式不同的问题,导致程序运行过程出错。
解决办法: 1.前期尽量收集到不同种类的url,针对不同URL格式分别处理 2.由于数据两巨大,可能无法发现这些不同的url ,那么可以在关键步骤上,主要是要对url进行处理时,在可能出错的环节 加上异常处理。把出错的url保存到单独的文件,以便后期的调试处理。针对这些出错而遗漏的链接重新爬取。 ...原创 2019-07-17 00:06:51 · 826 阅读 · 0 评论