Python爬取腾讯视频

python开发已经在实际中越来越常用,大数据,人工智能,数据分析,基本都要用到python。今天分享是LEONYao同学关于爬腾讯视频的案例。

其实事情是这样的,上个礼拜我去面试一家公司,工作是做爬虫。然后有了以下对话。
面试官:你是自学的,我有一些问题问你,python的浅拷贝和深拷贝是什么?
我:呵呵
面试官:额。。。你能不能说一说你是怎么理解python的面向对象编程?
我:呵呵
面试官:额。。。。好吧,我不问你基础了。你有没有爬过动态的网页?
我:有啊,我爬过豆瓣啊。
面试官:那我让你爬视频网站你怎么爬?F12里查看器是看不到视频地址的!
我:看不到么?
面试官:嗯!
我:不知道。。。。。
面试官:额。。。。你这样让我很为难的,要不你去试试爬腾讯视频。
我:好啊好啊!
面试官:你不要想用那些模拟浏览器来渲染JS哦!直接抓包!

结果我回到家一看!!什么鬼!!!!

怎么用代码爬啊??

经过三天的学习,我首先弄清楚了对于这种动态网站的爬取方法。
首先,用network找到一个专门接收请求的真实地址,或者后门网址。

就是这个,只要在网址里加入参数,它就会返回数据。拉下去,我们可以看道参数,这里的参数有很多并不是必须的。我先在这里提前说一下,最后我们是要根据观察来找出规律重构出这个网址,因为我们做爬虫的不可能上网站开F12来找信息的。我们看下网址打开后有什么

This XML file does not appear to have any style information associated with it. The document tree is shown below.
<root>
<exem>0</exem>
<hs>0</hs>
<ls>0</ls>
<tm>1479138997</tm>
<dltype>1</dltype>
<preview>135</preview>
<sfl>
<cnt>0</cnt>
</sfl>
<fl>
<cnt>3</cnt>
<fi>
<sl>0</sl>
<br>64</br>
<id>10703</id>
<name>sd</name>
<lmt>0</lmt>
<sb>1</sb>
<cname>标清;(270P)</cname>
<fs>4795182</fs>
</fi>
<fi>
<fs>8435750</fs>
<sl>1</sl>
<br>235</br>
<id>10712</id>
<name>hd</name>
<lmt>0</lmt>
<sb>1</sb>
<cname>高清;(480P)</cname>
</fi>
<fi>
<
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值