python采集直播间数据_利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!...

首先我准备利用mysql来存储我爬取的信息,建一个host表如下:

93f848b83d8f3900417fb6cf8454c7df.png

然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作:

bfc6a6d64a33e6c4e47bc6d0f6cba397.pngUnit_Mtsql

然后就是使用Beautifulsoup框架对斗鱼的链接进行解析,为了使用的方便,自己写了一个host类,主要用于存储直播间的相关信息。基本思路是:1.获取斗鱼的几大模块,斗鱼一共有7个模块:网游晋级,单机热,手游休闲等  。2.获取每个模块的子模块 3.从每个子模块中找到旗下的直播间信息。

be52c0badc66de40341ddf74983d11d6.png

c8d4929a454607e68407edd10f2f5d3c.png

e69b40fb2e877f112e3eca133c2136b3.png

最后直接运行get_info()就行

结果如下:

327734264bd2cd3b257fe707776f625c.png

但是程序到这似乎还有两点没有解决:

1.斗鱼的关注数是使用gif图片加载。暂时还没有发现获取每个直播间关注数的方法。

2.无法找到全部的直播间信息。

这两个问题后面再解决。

通过对斗鱼api数据接口的分析,我找到了斗鱼后台的online实际人数。因此我通过了爬虫爬取了在线的人数。

在斗鱼直播的后台数据解析的过程我发现了一个数据接口,这个数据接口包含有:online关键关键数据。个人估计是斗鱼直播间的实际人数。

10e84331d6e65a636078b9aacf5a8924.png

通过对数据的分析,这个字和热度呈正相关。真实性比较高。

我利用斗鱼的热度和实际人数的比值 coefficient(这个系数)表示斗鱼对该主播的支持情况。

24f6b6fc2e621f4fcb065bdaf323d8d9.png

----------------------------------------------------------------------------------------分割线-----------------------------------------------------------------------------------

再来更新一波:通过对斗鱼的后台数据的分析找到了斗鱼的分页数据,也就是可以爬取斗鱼的所有直播间的信息。

我编译了相关代码,只要你安装了mysql,直接运行可执行文件。 可以自动完成建表爬取过程,不需要安装相关依赖。目前支持Windows/MacOS系统。

Github地址:https://github.com/danzhewuju/DouyuSpider

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值