在B站上看到了一个爬取头条街拍图片的视频,于是技痒难耐,准备试一试。由于视频的时间有点儿久,其中在爬取详细页面的图片时,压根儿找不到一个叫gallery的变量。
因此·找不到图片链接在哪儿。
进入一个详细页面后,打开开发者工具后,勾选上面Preserve log,再f5刷新详细内容的页面,点击第一条请求,response选项后,可以看到这个页面
而我们要的图片url在content中
就下来就按部就班请求网页,再用re解析,最终得到这个页面的所有url
下面是一个简单的实现
import requests
import re
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',
'Cookie':'tt_webid=6687129398418720260; UM_distinctid=16a8290510810e-0086ce5b77fa98-651a127e-144000-16a8290510919b; csrftoken=5b2aca04e803ba890311359330faf4d1; tt_webid=6687129398418720260; WEATHER_CITY=%E5%8C%97%E4%BA%AC; __tasessionId=u3p1s1fuc1557579763169; s_v_web_id=2ef3089db856e7a9089bf3a59daa8c92; CNZZDATA1259612802=428499816-1556967297-%7C1557576734',
'Referer': 'https://www.toutiao.com/a6689631545864487438/',
'X-Requested-With': 'XMLHttpRequest',
}
#注意设置Cookie,因为头条加入了滑动验证码,没有Cookie可能出问题,怎么设置在后面说
def get_html():
res = requests.get('https://www.toutiao.com/a6689631545864487438/',headers = headers)
res.encoding = res.apparent_encoding
pattern = re.compile(r"content: '(.*?)'")
result1 = pattern.findall(res.text)
pattern2 = re.compile(r';"(http.*?)" img_width',)
result2 = pattern2.findall(str(result1))
#一次解析太复杂,分两次
print(result2)
print(len(result2))
if __name__ =='__main__':
get_html()
这里Cookie的值可以在手动滑动验证码后,再在request headers里找到,复制过来,就好。像下面这样。