python爬app西瓜视频_python3 scrapy抓取今日头条视频（西瓜视频）

最新推荐文章于 2024-04-28 15:05:07 发布

weixin_39710561

最新推荐文章于 2024-04-28 15:05:07 发布

阅读量772

点赞数

文章标签： python爬app西瓜视频

python3 scrapy抓取今日头条视频(西瓜视频)

发布时间：2018-07-21 16:07,

浏览次数：979

, 标签：

python

scrapy

<>使用环境：

* python3

* scrapy

* win10

<>爬取步骤

(1)从用户视频列表页开始

(2)使用ajax对接接口

(3)获取今日头条视频真实地址(西瓜视频真实地址)

备注：

这里的今日头条视频链接是直接跳转到365阳光宽频网的

https://www.365yg.com/

(1)我们要做的目标就是从把某个作者下的视频全部爬取下来。

(2)列表页下滑，获取xhr json数据

(3)xhr json获取规则: max_behot_time 参数的获取

列表的json数据参数只靠一个uid和max_behot_time进行拼接，得到下次请求数据内容，

(4)到这，列表页面的数据内容我们就获取到了。

(5)获取详情页的数据内容(视频播放页)

(6)source_url：

http://toutiao.com/item/6580318835541279236/

视频会重定向到：

http://www.365yg.com/i6580318835541279236/#mid=98676707813

(7)详情页解析：

这里详情页的信息是进行动态加载出来的，包括各种html标签，在查看网页源代码的时候都是这些

唯一有用的一个参数也就只有videoId这个东西了。

(8)右键审查元素

这个video标签下的url链接并不是我们所要取出来的，因为它返回的是404页面

真实的视频地址应该是这样子的：

http://v11-tt.ixigua.com/8a683ae4cba879e11cb4d6f0b43a7619/5b52f568/video/m/220af88614f73ce4742877a807bbbc0d0fb1159603c00008d84075740fd/

上面这个地址也是西瓜视频的永久地址，并不存在视频根据时间过期的时间。

因为使用的是scrapy-redis框架，加上ip代理池，加上延时1秒，并发量在1秒10次请求左右(限于ip1秒最大只能取10次)，数据爬了一天，现在为14万左右

单条信息数据：

'videos': [{'cut_url':

'http://p1.pstatp.com/list/190x124/31b9000116e2ab5c8840', 'duration': '',

'size': '', 'title': '世界这么美好，你为什么要去得罪老虎！为什么为什么为什么！', 'url':

'http://v3-tt.ixigua.com/85a193eb73049b91d90c871805557408/5b52f4ec/video/m/2206c559475e53f41849f784a829d58ef67114c4830000113768212918/'}]}

个人网站：http://xudailong.cc

关注「蛇崽网盘教程资源」公众号，在微信后台回复「领取资源」，获取IT资源200G干货大全。

更多资源请访问：

超详细图文搭建个人免费博客

关注「蛇崽网盘教程资源」公众号，在微信后台回复「领取资源」，获取IT资源200G干货大全。

在微信后台回复「130个小程序」，即可免费领取享有导入就能跑的微信小程序

weixin_39710561

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬app西瓜视频_python3 scrapy抓取今日头条视频（西瓜视频）

python3 scrapy抓取今日头条视频(西瓜视频)发布时间：2018-07-21 16:07,浏览次数：979, 标签：pythonscrapy<>使用环境：* python3* scrapy* win10<>爬取步骤(1)从用户视频列表页开始(2)使用ajax对接接口(3)获取今日头条视频真实地址(西瓜视频真实地址)备注：这里的今日头条视频链接是直接跳转到365阳光...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。