雀魂服务器列表为空,GitHub - xieyuchen13/majsoulAI: 尝试基于雀魂数据训练日麻AI

牌谱AI牌谱爬取概述为了训练日麻AI,我们首先需要爬取足量的现实牌谱作为训练数据。雀魂牌谱屋(https://amae-koromo.sapk.ch/ )是一个第三方维护的牌谱收集网站,收集了2019年8月23日开始的对局数据。网页如下图所示,可以看到,我们希望可以爬取一位的牌谱作为训练数据,从而使得我们可以更好地模拟一位玩家的行为,做出更好的决策。查看元素可以看到一个典型的牌谱链接,包含了一个较...
摘要由CSDN通过智能技术生成

牌谱AI

牌谱爬取

概述

为了训练日麻AI,我们首先需要爬取足量的现实牌谱作为训练数据。

雀魂牌谱屋(https://amae-koromo.sapk.ch/ )是一个第三方维护的牌谱收集网站,收集了2019年8月23日开始的对局数据。网页如下图所示,可以看到,我们希望可以爬取一位的牌谱作为训练数据,从而使得我们可以更好地模拟一位玩家的行为,做出更好的决策。

image-20200528194622119.png

查看元素可以看到一个典型的牌谱链接,包含了一个较长的牌谱id。

[豪1] lovecccc [49600]

点击链接之后,发现会首先进行登录,然后会逐步加载到牌谱查看界面,通过chrome浏览器的开发者工具我们可以发现,雀魂的数据通信是通过websocket实现,客户端与服务器连接之后,客户端会通过不断地发送二进制信息实现与服务器的通信,从而获得用户状态,牌谱等信息。下图展示了获取牌谱的信息,可以看到,信息中包含了“fetchGameRecord”用以标识信息的类型,同时也包含了之前提到的牌谱id。

image-20200528195644686.png

因此,我们可以确定整体的爬取过程。首先,从雀魂牌谱屋中批量获取牌谱id,然后,通过模拟浏览器的行为与服务器进行通信,获取牌谱id对应的牌谱信息,最后解析服务器返回的牌谱信息,保存为易于处理和理解的形式。

批量获取牌谱id

雀魂牌谱屋的数据是采用流式加载的形式,向下滑动可以加载更多的数据。随意地向下滑动并打开开发者工具,我们可以清晰地看到大量极为一致的请求,显然是用于请求牌谱数据的请求,不难看出请求共计包含三个参数,其中两个参数为skip和limit,skip表示返回时跳过前多少条数据,limit表示需要返回多少条数据,如果不设置这两个参数则默认返回前100条数据。第三个参数为一长串数字,显然是用于标识时间。为了得到表示时间的具体规律,调节时间并查看不同的请求可以看出&#

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值