关于Python最新爬取头条街拍图片

最新推荐文章于 2023-04-29 21:49:27 发布

qq_39130299

最新推荐文章于 2023-04-29 21:49:27 发布

阅读量147

点赞数

本文链接：https://blog.csdn.net/qq_39130299/article/details/90116533

版权

在B站上看到了一个爬取头条街拍图片的视频，于是技痒难耐，准备试一试。由于视频的时间有点儿久，其中在爬取详细页面的图片时，压根儿找不到一个叫gallery的变量。

因此·找不到图片链接在哪儿。

进入一个详细页面后，打开开发者工具后，勾选上面Preserve log,再f5刷新详细内容的页面，点击第一条请求，response选项后，可以看到这个页面

而我们要的图片url在content中

就下来就按部就班请求网页，再用re解析，最终得到这个页面的所有url

下面是一个简单的实现

import requests
import re

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',
'Cookie':'tt_webid=6687129398418720260; UM_distinctid=16a8290510810e-0086ce5b77fa98-651a127e-144000-16a8290510919b; csrftoken=5b2aca04e803ba890311359330faf4d1; tt_webid=6687129398418720260; WEATHER_CITY=%E5%8C%97%E4%BA%AC; __tasessionId=u3p1s1fuc1557579763169; s_v_web_id=2ef3089db856e7a9089bf3a59daa8c92; CNZZDATA1259612802=428499816-1556967297-%7C1557576734',
'Referer': 'https://www.toutiao.com/a6689631545864487438/',
'X-Requested-With': 'XMLHttpRequest',
}
#注意设置Cookie,因为头条加入了滑动验证码，没有Cookie可能出问题，怎么设置在后面说
def get_html():
    res = requests.get('https://www.toutiao.com/a6689631545864487438/',headers = headers)
    res.encoding = res.apparent_encoding
    pattern = re.compile(r"content: '(.*?)'")
    result1 = pattern.findall(res.text)
    pattern2 = re.compile(r';&quot;(http.*?)&quot; img_width',)
    result2 = pattern2.findall(str(result1))
    #一次解析太复杂，分两次

    print(result2)
    print(len(result2))


if __name__ =='__main__':
    get_html()

这里Cookie的值可以在手动滑动验证码后，再在request headers里找到，复制过来，就好。像下面这样。

qq_39130299

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于Python最新爬取头条街拍图片

在B站上看到了一个爬取头条街拍图片的视频，于是技痒难耐，准备试一试。由于视频的时间有点儿久，其中在爬取详细页面的图片时，压根儿找不到一个叫gallery的变量。因此·找不到图片链接在哪儿。进入一个详细页面后，打开开发者工具后，勾选上面Preserve log,再f5刷新详细内容的页面，点击第一条请求，response选项后，可以看到这个页面而我们要的图片url在content中...
复制链接

扫一扫