《0基础》学习Python——第二十三讲__网络爬虫/＜6＞爬取哔哩哔哩视频

菜就多练_0828

已于 2024-07-21 21:36:10 修改

阅读量341

点赞数 16

文章标签：学习 python pycharm 爬虫爬取视频

于 2024-07-21 21:32:53 首次发布

本文链接：https://blog.csdn.net/qq_64603703/article/details/140591405

版权

一、在B站上爬取一段视频（B站视频有音频和视频两个部分）

1、获取URL

注意：很多平台都有反爬取的机制，B站也不例外

首先按下F12找到第一条复制URL

2、UA伪装，下列图片中（注意代码书写格式）

3、Cookie，

在上节课以及说了Cookie这个东西，需要我们登录后的复制的才有用，其需要在左侧找到web对应的页面找到，如下图所示：

4、防盗链：

用来告诉服务器你请求链接是从哪里跳转过来的，没有这个，就无法成功。（即使下载好后，打开文件，会显示无法播放）

防盗链是指通过设置HTTP请求的Referer头字段来限制其他网站对自身网站资源的访问。在爬取数据时，开发者可以在HTTP请求中添加Referer字段，告知服务器请求的来源页面。服务器会检查Referer字段来判断请求是否来自合法的来源页面，如果不合法，服务器可能会拒绝该请求或返回错误信息。

而最上面第二张图里的红色框就是Referer，将它复制过来就可以了

注意：User-Agent、Cookie、Referer需要写在head里传入get请求属性内，必须字母大小写完全一致

head={
        #UA伪装
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
        ,#防盗链
        'Referer':'https://www.bilibili.com/video/BV1Hm421g7Uk/?spm_id_from=333.1007.tianma.10-1-35.click'
        ,#Cookie，用户登录信息
        'Cookie':"buvid3=380A54AC-1380-1A80-3501-B4D8CCABA7BF29897infoc; b_nut=1720504429; _uuid=13E92EE8-61F4-5115-D85B-AA5944A8C35D29991infoc; enable_web_push=DISABLE; buvid4=D79928A9-BA71-3CF7-EF1B-C8E41318CF0731079-024070905-IYJQtQw8DTdtrI0uY1UGvQ%3D%3D; b_lsid=1A3CF2B8_190D4BF05FC; bsource=search_bing; header_theme_version=CLOSE; CURRENT_FNVAL=4048; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE3MjE4MTU0MTksImlhdCI6MTcyMTU1NjE1OSwicGx0IjotMX0.ExMDwTuyn9PYFV0sqW9gxFH4UDmKR-BkkgHHmOAIGls; bili_ticket_expires=1721815359; sid=8q9u9sec; home_feed_column=5; browser_resolution=1488-755; is-2022-channel=1; rpdid=|(Y|RJRl|k|0J'u~kullYJul; fingerprint=3413b6ee321fed7d51121223b51b31f5; buvid_fp_plain=undefined; buvid_fp=3413b6ee321fed7d51121223b51b31f5"

    }

5、content-type类型的查看：

同样是在左侧web标签页下寻找，可以发现当前页面是text类型：

此处代码实现如下：

import requests

if __name__ == '__main__':

    url='https://www.bilibili.com/video/BV1Hm421g7Uk/?spm_id_from=333.1007.tianma.10-1-35.click'

    head={
        #UA伪装
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
        ,#防盗链
        'Referer':'https://www.bilibili.com/video/BV1Hm421g7Uk/?spm_id_from=333.1007.tianma.10-1-35.click'
        ,#Cookie，用户登录信息
        'Cookie':"buvid3=380A54AC-1380-1A80-3501-B4D8CCABA7BF29897infoc; b_nut=1720504429; _uuid=13E92EE8-61F4-5115-D85B-AA5944A8C35D29991infoc; enable_web_push=DISABLE; buvid4=D79928A9-BA71-3CF7-EF1B-C8E41318CF0731079-024070905-IYJQtQw8DTdtrI0uY1UGvQ%3D%3D; b_lsid=1A3CF2B8_190D4BF05FC; bsource=search_bing; header_theme_version=CLOSE; CURRENT_FNVAL=4048; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE3MjE4MTU0MTksImlhdCI6MTcyMTU1NjE1OSwicGx0IjotMX0.ExMDwTuyn9PYFV0sqW9gxFH4UDmKR-BkkgHHmOAIGls; bili_ticket_expires=1721815359; sid=8q9u9sec; home_feed_column=5; browser_resolution=1488-755; is-2022-channel=1; rpdid=|(Y|RJRl|k|0J'u~kullYJul; fingerprint=3413b6ee321fed7d51121223b51b31f5; buvid_fp_plain=undefined; buvid_fp=3413b6ee321fed7d51121223b51b31f5"

    }
    #发送get请求
    response=requests.get(url,headers=head)
    res_txt=response.text
    #打印获取到的数据
    print(res_txt)

代码打印的结果为：

如此便是正确的爬取到了视频网页的内容，接下来便可以接着进行下一步

6、找到视频和音频地址

B站视频是和音频分开的，所以需要我们额外去找，点击F12后在第一条的响应里右边滚轮拖到最顶端，找到这个界面：

在这个标签下可以发现video，

而video标签这里的baseUrl就是视频的地址，继续下拉会发现这个audio这个标签，这下面baseUrl存放的就是音频的地址

7、定位到需要内容页面

注意：这一步的目的就是为了找到上面的视频和音频的baseUrl，因为视频存放地址的代码基本在这个平台基本都是一致的，所以为了爬取更多的B站的视频就需要快速定位到视频URL，而不需要像上一点那样一条一条找每个视频的URL。

打开元素页面找到head标签下的第四个script标签，这里存放的使我们需要的内容，如下列图片，其类似于上节课xpath所有的li标签的内容

有了这么多的数据就可以开始写代码了

首先我们获取到了res_txt内容，那么便去用etree解析这段内容，然后在对xpath返回的列表用join去除括号处理得到字符串，然后前面那段（window.__playinfo__=）内容我们不需要，所以用索引去除，去除后得到的是json大字符串，可以将它转换成字典

#解析获取的数据
tree=etree.HTML(res_txt)
#利用xpath找到视频地址
base_info="".join(tree.xpath('/html/head/script[4]/text()'))[20:]
print(base_info)

打印后得到的内容如下，可以看出他是一个json字符串

然后用json.loads()将其转换成字典，代码如下

#将json大字符串转换成字典类型，然后通过键取值
video_url=json.loads(base_info)['date']['dash']['video'][0]['baseUrl']
audio_url = json.loads(base_info)["data"]["dash"]['audio'][0]["baseUrl"]

其中json.loads(base_info)是将base_info转化成字典的形式，后面的['date']['dash']['video']则是字典的键，而video键所对应的值为列表，而我们所需要的videoUrl就在这个列表的第一个元素的字典里，所以索引为0得到另一个字典，另一个字典中的["baseUrl"]则对于我们所需要的video_url，具体可通过下图来直观解释：

同样可以通过这个方法找到音频的URL，然后在通过这些URL发送get请求得到音频和视频的二进制编码，再将这些编码写入文件，即可得到视频文件和音频文件，其后缀名都为mp4格式，如下代码即可获取视频和音频的全部二进制数据

#将json大字符串转换成字典类型，然后通过键取值得到音频和视频的URL
video_url=json.loads(base_info)['date']['dash']['video'][0]['baseUrl']
audio_url = json.loads(base_info)["data"]["dash"]['audio'][0]["baseUrl"]

#发送get请求获取音频和视频的数据
video_re=requests.get(video_url,headers=head)
audio_re=requests.get(audio_url,headers=head)
    
video_con=video_re.content
audio_con=audio_re.content

然后再创建mp4文件，将这些数据存放进去，即可完成视频爬取，后期在通过音视频合成工具将两个内容合并即可

with open('./video.mp4','wb') as f:
    f.write(video_con)

with open('./audio.mp4','wb') as fp:
    fp.write(audio_con)

点击运行以后即可在左侧文件夹中找到两个mp4音视频文件

需要在当前代码存放文件夹内打开，而不是再pycharm编译器内打开