B站的一点点东西的爬取

最新推荐文章于 2021-07-15 09:30:00 发布

猴猴猴子

最新推荐文章于 2021-07-15 09:30:00 发布

阅读量1.5k

点赞数 2

分类专栏：爬虫文章标签： python 大数据数据挖掘

本文链接：https://blog.csdn.net/WjoKe/article/details/107007248

版权

本文介绍了如何爬取B站视频详情页数据，包括分析网址构造、动态获取视频信息，以及提取播放量等关键数据。通过观察网页结构和使用Xpath、正则表达式，最终成功抓取所需数据。

摘要由CSDN通过智能技术生成

B站的一些东西的爬取

吼吼吼，在B站科技区（舞蹈区）学习的时候，突然发现可不可以爬取B站的一些东西呢？
just do it

1、分析网站，详情页网址构造

爬取的网址（搜索词：抖音）
在这里插入图片描述
可以看到，这是一页一页的翻页的，而且告诉了最后一页，这不可谓不良心网站了。而我要做的是点进去每一个视频去得到里面的内容。

也就是上面圈出来的内容了，不是吧，阿sir这随手一点就是plmm。hhh
好！观察（看）完后，进入网页检查部分，要得到每个视频的详情网址。
在这里插入图片描述
可以看到，这里可以得到详情页的网址，那么这里后续将会采取Xpath进行提取，但是得到的网址还不完善，所以还要构建一手网址。
具体代码如下：

a=[]###获取每一个视频的详细网址
for m in range(1,51):###要得到50页的所有的视频链接
    res=requests.get('https://search.bilibili.com/all?keyword=%E6%8A%96%E9%9F%B3&from_source=nav_search_new&page='+str(m),