关于Python最新爬取头条街拍图片

在B站上看到了一个爬取头条街拍图片的视频,于是技痒难耐,准备试一试。由于视频的时间有点儿久,其中在爬取详细页面的图片时,压根儿找不到一个叫gallery的变量。

因此·找不到图片链接在哪儿。

进入一个详细页面后,打开开发者工具后,勾选上面Preserve log,再f5刷新详细内容的页面,点击第一条请求,response选项后,可以看到这个页面

而我们要的图片url在content中

就下来就按部就班请求网页,再用re解析,最终得到这个页面的所有url

下面是一个简单的实现

import requests
import re

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',
'Cookie':'tt_webid=6687129398418720260; UM_distinctid=16a8290510810e-0086ce5b77fa98-651a127e-144000-16a8290510919b; csrftoken=5b2aca04e803ba890311359330faf4d1; tt_webid=6687129398418720260; WEATHER_CITY=%E5%8C%97%E4%BA%AC; __tasessionId=u3p1s1fuc1557579763169; s_v_web_id=2ef3089db856e7a9089bf3a59daa8c92; CNZZDATA1259612802=428499816-1556967297-%7C1557576734',
'Referer': 'https://www.toutiao.com/a6689631545864487438/',
'X-Requested-With': 'XMLHttpRequest',
}
#注意设置Cookie,因为头条加入了滑动验证码,没有Cookie可能出问题,怎么设置在后面说
def get_html():
    res = requests.get('https://www.toutiao.com/a6689631545864487438/',headers = headers)
    res.encoding = res.apparent_encoding
    pattern = re.compile(r"content: '(.*?)'")
    result1 = pattern.findall(res.text)
    pattern2 = re.compile(r';"(http.*?)" img_width',)
    result2 = pattern2.findall(str(result1))
    #一次解析太复杂,分两次

    print(result2)
    print(len(result2))


if __name__ =='__main__':
    get_html()

这里Cookie的值可以在手动滑动验证码后,再在request headers里找到,复制过来,就好。像下面这样。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值