今天我们来进行 Python 爬虫实战,学以致用嘛,这也是咱们不断学习的动力!
我们要爬取的网站是YY直播
,不知道有多少朋友知道,反正小编以前是不知道的,真的不知道~
那么为什么我们选择这个网站呢,因为小编在网站找文章素材的时候,无意中发现了一个超级棒的 api,可以直接返回该网站上的主播视频
https://api-tinyvideo-web.yy.com/home/tinyvideosv2
我们没有访问该地址,返回的结果都会变化,那么好了,我们只需要使用 Python 模拟网络请求,然后再解析对应的返回数据既可以了。
模拟请求
相信大家都不陌生,使用大名鼎鼎的 requests 库即可
url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
response = requests.get(url=url, headers=headers)
data = response.json()
这样,变量json_data
里面就是我们上面在浏览器中看到的数据,接下来就是解析该数据
解析数据
在上面的数据中,我们可以看出,resurl
当中保存着视频连接,那么我们只需要拿出该参数,再通过 requests 库请求即可
for d in data_list:
video_title = str(d['yyNum']) + '.mp4'
video_url = d['resurl']
video_content = requests.get(url=video_url, headers=headers).content
变量video_content
当中保存的就是视频信息,我们可以直接保存
保存视频
保存视频也比较简单,通过 open 函数完成
with open('video\\' + video_title, mode='wb') as f:
f.write(video_content)
print('保存完成:', video_title)
效果如下
保存到本地的视频如下
循环下载
前面我们也说了,每次访问该 api,都会返回不同的数据,所以我们可以反复多次访问,然后下载更多的视频
url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
for _ in range(page+1):
response = requests.get(url=url, headers=headers)
data = response.json()
data_list = data['data']['data']
print(data_list)
完整代码
import requests
def fire(page):
url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
for _ in range(page+1):
response = requests.get(url=url, headers=headers)
data = response.json()
data_list = data['data']['data']
print(data_list)
for d in data_list:
video_title = str(d['yyNum']) + '.mp4'
video_url = d['resurl']
video_content = requests.get(url=video_url, headers=headers).content
with open('video\\' + video_title, mode='wb') as f:
f.write(video_content)
print('保存完成:', video_title)
if __name__ == '__main__':
fire(10)
后续
今天的爬虫,我们还是取巧了,使用了 api 接口。在后面的文章中,我们还会直接爬取页面信息,然后下载不同主播,不同类型的视频,一起期待吧~
关于Python学习指南
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!
👉Python所有方向的学习路线👈
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)
👉Python学习视频600合集👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
👉Python70个实战练手案例&源码👈
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉Python大厂面试资料👈
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
👉Python副业兼职路线&方法👈
学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。
👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费
】