本文是北理嵩天老师的MOOC中的一个实例。
本人编写中也遇到了一些困难,其中就有cookie值过期的疑惑,后来从这篇文章中获得了解决,大家若有同样的疑问可以移步查看一下(我是用的方法二)。
根据嵩老师的课程(2016年左右),有一部分在现在是不适用的,从这篇文章中知道了要添加headers和cookie值才能正确爬取。
直至现在仍有一些疑问存在,分别是:
1、cookie值每爬取一次就要重新获取,非常麻烦
2、淘宝每页的商品数量是不同的,随机的,我本人的是第一页为47个,第二页为41个,所以不能保证爬取多少个商品,只能按最大值获取
代码如下:
import requests
import re
def getHTMLText(url):
try:
header = {'user-agent':'Mozilla/5.0','cookie':'_m_h5_tk=c967f