解决办法:
1.前期尽量收集到不同种类的url,针对不同URL格式分别处理
2.由于数据两巨大,可能无法发现这些不同的url ,那么可以在关键步骤上,主要是要对url进行处理时,在可能出错的环节
加上异常处理。把出错的url保存到单独的文件,以便后期的调试处理。针对这些出错而遗漏的链接重新爬取。
解决办法:
1.前期尽量收集到不同种类的url,针对不同URL格式分别处理
2.由于数据两巨大,可能无法发现这些不同的url ,那么可以在关键步骤上,主要是要对url进行处理时,在可能出错的环节
加上异常处理。把出错的url保存到单独的文件,以便后期的调试处理。针对这些出错而遗漏的链接重新爬取。