牌谱AI
牌谱爬取
概述
为了训练日麻AI,我们首先需要爬取足量的现实牌谱作为训练数据。
雀魂牌谱屋(https://amae-koromo.sapk.ch/ )是一个第三方维护的牌谱收集网站,收集了2019年8月23日开始的对局数据。网页如下图所示,可以看到,我们希望可以爬取一位的牌谱作为训练数据,从而使得我们可以更好地模拟一位玩家的行为,做出更好的决策。
查看元素可以看到一个典型的牌谱链接,包含了一个较长的牌谱id。
点击链接之后,发现会首先进行登录,然后会逐步加载到牌谱查看界面,通过chrome浏览器的开发者工具我们可以发现,雀魂的数据通信是通过websocket实现,客户端与服务器连接之后,客户端会通过不断地发送二进制信息实现与服务器的通信,从而获得用户状态,牌谱等信息。下图展示了获取牌谱的信息,可以看到,信息中包含了“fetchGameRecord”用以标识信息的类型,同时也包含了之前提到的牌谱id。
因此,我们可以确定整体的爬取过程。首先,从雀魂牌谱屋中批量获取牌谱id,然后,通过模拟浏览器的行为与服务器进行通信,获取牌谱id对应的牌谱信息,最后解析服务器返回的牌谱信息,保存为易于处理和理解的形式。
批量获取牌谱id
雀魂牌谱屋的数据是采用流式加载的形式,向下滑动可以加载更多的数据。随意地向下滑动并打开开发者工具,我们可以清晰地看到大量极为一致的请求,显然是用于请求牌谱数据的请求,不难看出请求共计包含三个参数,其中两个参数为skip和limit,skip表示返回时跳过前多少条数据,limit表示需要返回多少条数据,如果不设置这两个参数则默认返回前100条数据。第三个参数为一长串数字,显然是用于标识时间。为了得到表示时间的具体规律,调节时间并查看不同的请求可以看出&#