本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
以下文章源于菜鸟学Python ,作者:菜鸟哥
刚接触Python的新手、小白,可以复制下面的链接去免费观看Python的基础入门教学视频
https://v.douyu.com/author/y6AZ4jn9jwKW
![d185ca534d5c409cb59e0c6ab59e6e82~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/e4b5a315bb3afaab34fc6f3904244f16.png)
![78ee076bb4944a36a889ef41049a44cf~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/ce723779d34259258643a55c8d40cdb5.png)
前言
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户。源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的up主比比皆是。
今天,小编就带领大家来爬取并分析一下B站的最热视频排行榜,看看大家究竟都喜欢看什么样子的视频~~
01.榜单信息抓取
对于榜单的爬取,我们爬取了榜单的前一百名视频的播放量,弹幕数量,以及视频的点赞、投币、收藏和up主的粉丝数目等信息。
![094d5ee1e4554beb8f174ed3b257102e~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/f6453bc45f960eae69b111fd093fd6ae.png)
对于排行榜的播放量、弹幕数量和视频链接的爬虫程序,如下图所示:
![b63b9202730f4c6ba8d095ebc4b33bb2~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/a45f94fec371f4b4034907316d444b3c.png)
由于网页是静态网页,所以我们可以直接采用requests请求的方式,来获取网页源代码,然后使用beautifulsoup来进行网页的解析,并抓取我们需要的信息。对于每个网页的点赞、投币、收藏和up主的粉丝数量。
可以采用我们之前介绍的web scraper来进行抓取(牛逼的chrome插件,不用一行代码,轻松爬取各大网站公开信息!(附视频))。最后将两部分的内容进行合并,得到最终的抓取信息。
![d0cbfcb990414f9db0b464182515ce98~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/f38987633b0243835bedb4e9d0f3264b.png)
对于数据中存在的字符串类型的数值,例如观看数量为“122万”,已经经过数据清洗转化为int类型的数值。
02.数据分析
接下来,我们来看一下,最热视频排行榜前十位中,up主们的粉丝数量的分布情况,程序如下图所示:
![ef840bc594b749229dd2d3b55661c53b~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/4667c41f483dc08d690f114da296943d.png)
首先,我们对数据按照粉丝数量的数值进行降序排序,然后将前十名的粉丝数量进行按“万”为单位进行计数,最后利用pyecharts中的Bar类来及进行可视化的展示。结果如下。
![5e41473bd36447db9a163800bea42856~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/0dece23d2afc392a10ac2a32ad75d325.png)
可以看到,粉丝数量排名最高的up主是“罗翔说刑法”,粉丝数量超过了1000万,妥妥的B站超级up主,也说明了在B站上小伙伴们不仅是为了娱乐,还可以在B站上进行学习。大家看看前十的排行中,有没有大家关注的up主呢?
03.可视化展示
接下来,我们对于排行榜中弹幕的数目进行一个分布的可视化展示:
![1813d3f0b6274b86ad399e85d74a46fb~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/fb7fe1a29141cd767a0785584a2d915d.png)
程序中 ,我们首先将弹幕的数量进行一个分段的划分,分别为0-5000,5000-10000一直到25000-30000,然后创建一个Pie类对象,进行数据的可视化展示。
![d80c6af894874da28838a2048cd80d3c~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/9d5b8ba12d117f7626f38527bdaff35c.png)
可以看到,视频的弹幕数量中,有62%的是在0-5000的范围内,视频的个数随着弹幕数量的增加而呈现快速减少的趋势,弹幕数量在25000到30000之间的视频只有一个。这也符合大家正常的观看趋势。
那对于视频的点赞数目的视频分布又是怎样的呢?
![7b8bca827ccf44e19453f2a84c074729~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/13802df839dbdb19c938d8984f0369be.png)
上图中横坐标对应的是不同的点赞数量分布区间,利用0到2万指的是,点赞数在0到2万次,而纵坐标对应的就是视频的数量;
从点赞数和视频的分布数量来看,呈现了不规则的趋势,点赞在2万到4万和12万赞以上的视频数目是最多的;
而点赞在0到2万的视频数目是最少的,看来大家对于视频是不会吝啬自己的“赞”;
另一方面,相比于发弹幕,点赞的操作更加的便捷,也也许就是大家更愿意点赞的原因吧。
04.词云分析
最后,小编抓取了榜单排行第一位的视频《众所周知,猫是一种尊老爱幼的动物》的弹幕,并进行了去重,来看一下弹幕中大家提及的关键词都有哪些吧。
![02da9f8aeaec4c4591ebe09432a971a8~tplv-tt-shrink:640:0.image](https://i-blog.csdnimg.cn/blog_migrate/898d09ba3ffc87ea4ae9dae506616637.jpeg)