python抓取视频_用Python抓取头条视频内容,数据其实并没有藏那么深

原标题:用Python抓取头条视频内容,数据其实并没有藏那么深

综述

根据网站结构及数据类型,做出头条视频的爬虫,重点说明数据在网站的位置以及抓取办法

并介绍一个类似的网站,简单说明数据抓取办法

使用工具: python3.6 + pycharm + requests库 + re 库

Python学习资料或者需要代码、视频加Python学习群:960410445

b7221ae859b6496cb5a6605f907a295f.jpeg

目标情况

这次我们的目标网站,是ajax加载的数据,首先,打开网页后,直接用浏览器(火狐)自带的开发者工具,点击网络,然后下滑网页,点击xhr,找到json数据,可以看到大概有100条内容

cb73479fde7c42bbb815a6a309377df0.jpeg

里面有每一个视频的相关信息,我们只需要取出每一个视频的url即可!然后在去看看详情页的情况

506491e2063147d788996a0939f6bb89.jpeg

非常简单的就找到了视频的真实地址!复制地址重新打开一个网页去验证一下,确认地址无误,那么就去源代码中看看,该地址是否存在吧

2316b1608129489abafd494dc54196c0.jpeg

很明显,这个网站并不是静态的网站,而且数据应该存放在js文件中,那么我们怎么得到它呢~?需要分析js文件还是用selenium呢?不要着急,偶然的情况下,发现了这个

b98f1c6202f34b02b25a1f585a0c9e2d.jpeg

有没有发现,在url中的关键字,是存在于网页源代码中的,虽然不是完全一样,但是我们可以和前面的那个标签中内容,对比下

fb0204faee8c4670a9a7ac8bb912be0d.jpeg

6f0f8c854eb44a5fb6b8e218c0f77bf2.jpeg

可以判定,这里的值就是网页渲染后出现在html标签中的值,而且在源代码中它存在2个不同格式的视频地址!,这就很简单了,我们来写代码吧!

代码实现

简单写了一下,直接用requests请求内容,然后用re匹配,取出目标url

ca5348d07e6c442b87e0f40b9d78cc8e.jpeg

类似网站

1841e29dcf394499afd5e3bb7feab6f0.jpeg

其实还有一个网站和这种情况很像,那就是秒拍视频,但是如果你想看更多的视频的话,还是需要打开客户端,所以我们就简单的以一个视频为例,抓出它的真实地址!具体过程就不一一说明了,就直接看结果吧,先看目标网页

d47d410152a241759134ab03edba1f5e.jpeg

用关键字在源代码中查找

82dec7f1a0e64d5c87cf91e7d26a35fa.jpeg

最终代码

de8a5cb6f4f045d4a793afc596f9db6a.jpeg

验证结果

责任编辑:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值