淘宝商品比价定向爬虫
本文是北理嵩天老师的MOOC中的一个实例。本人编写中也遇到了一些困难,其中就有cookie值过期的疑惑,后来从这篇文章中获得了解决,大家若有同样的疑问可以移步查看一下(我是用的方法二)。根据嵩老师的课程(2016年左右),有一部分在现在是不适用的,从这篇文章中知道了要添加headers和cookie值才能正确爬取。直至现在仍有一些疑问存在,分别是:1、cookie值每爬取一次就要重新获取,非常麻烦2、淘宝每页的商品数量是不同的,随机的,我本人的是第一页为47个,第二页为41个,所以不能