《英雄联盟》捞月狗数据初探








《英雄联盟》捞月狗数据初探





本文用Python从捞月狗网站上面抓取国服各区及外服王者数据信息,然后用R软件进行数据初探及浅析。旨在发现数据后面的有趣的东西!爱生活,爱数据!




  • Python爬取捞月狗数据



要抓取的数据如下图所示:





主要包括王者游戏ID,所在区服,胜点,胜场,负场,胜率,最近状态,擅长位置,本命英雄等。由于捞月狗的数据是每天更新的,所以不同时间爬取数据可能会有所不同。



所用的Python代码如下:

导入所需要的模块:

import requestsimport reimport pandas as pd

设置头部信息:

head={'User-Agent':'你自己的头部信息'}

设置正则来获取国服王者信息:

rem=re.compile(r'class="subStrTitle">(.*?)</span>.*?server">(.*?)</div>.*?class="icon-dan"><em>(.*?)</em>.*?<span>(.*?)<em class="color-win">(.*?)<.*?\t<span>/</span>.*?<span>(.*?)<em class="color-defeat">(.*?)</em>.*?"percentage">(.*?)</span>.*?/score/(.*?).png.*?color-zhongdan">(.*?)</span>.*?alt="(.*?)"/>.*?alt="(.*?)"/>.*?alt="(.*?)"/>',re.S)

外服正则用于获取外服王者信息:

reh=re.compile(r'<span class="subStrTitle">(.*?)</span>.*?player-server">(.*?)</div>.*?<em>(.*?)</em>.*?<span>(.*?)<em.*?win">(.*?)</em></span>.*?<span>.*?<span>(.*?)<em.*?feat">(.*?)</em>.*?"percentage">(.*?)</span>.*?score/(.*?).png.*?"color-zhongdan">(.*?)</span>.*?src="(.*?)">.*?src="(.*?)">.*?src="(.*?)">',re.S)

获取国服对应的战区,存放在zhanqu_list_cn中:

url_cn='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.html?region=cn&area=1'html_cn = requests.get(url_cn,headers = head)reg=re.compile(r'class="cn-li.*?href="(.*?)">',re.S)zhanqu_list_cn=re.findall(reg,html_cn.text)#国服战区

获取外服对应的战区,存放在zhanqu_list_en中:

url_en='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.html?region=foreign&area=kr'html_en = requests.get(url_en,headers = head)ren=re.compile(r'class=" foreign-li.*?href="(.*?)">',re.S)zhanqu_list_en=re.findall(ren,html_en.text)

定义下载中国战区数据的函数:

def updown_cn(zhanqu_list_cn):
    for zhanqu in zhanqu_list_cn:
        for m in range(1,11):
            url=zhanqu+'&page='+str(m)
            im = requests.get(url,headers = head)
            if im.status_code == 200:

                data=re.findall(rem,im.text)  #得到数据rem代表国服数据
                data=pd.DataFrame(data)
                data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv', header=False, index=False,mode='a+')#写入csv文件,'a+'是追加模式
                data=[]

定义下载外服战区数据的函数:

def updown_en(zhanqu_list_en):
    for zhanqu in zhanqu_list_en:
        for m in range(1,11):
            url=zhanqu+'&page='+str(m)
            im = requests.get(url,headers = head)
            if im.status_code == 200:

                data=re.findall(reh,im.text)  #得到数据reh代表外服数据
                data=pd.DataFrame(data)
                data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv', header=False, index=False,mode='a+')#写入csv文件,'a+'是追加模式
                data=[]

下载数据:

updown_cn(zhanqu_list_cn)  #下载中国战区数据updown_en(zhanqu_list_en)  #下载外服战区数据

下载下来的数据保存格式是CSV格式,内容如下图所示:

经过翻看数据,只找到几条格式异常数据(已经手动删除)。

  • R语言数据初探

下面用R软件来分析数据,看看能否发现一些有趣的事情!

导入分析是要用的R语言程序包:

library(data.table)
library(plotly)
library(magrittr)
library(wordcloud2)

导入数据:

dt=fread(file.choose())

国服数据:

dt_cn=dt[1:2500] #也就是前2500个

外服数据:

dt_en=dt[2501:4480]

各个战区王者数量(国服):

>dt_cn[,.(.N),by=.(所在战区)]
      所在战区   N
 1:   艾欧尼亚   90
 2:      祖安   80
 3:   诺克萨斯   80
 4:   班德尔城   90
 5: 皮尔特沃夫   90
...................
25:   扭曲丛林  99
26: 教育网专区  25
27:   巨龙之巢  90
28:   男爵领域  90
29:   峡谷之巅  80
      所在战区   N

概览数据(国服):

>summary(dt_cn[,.(.N),by=.(所在战区)])
   所在战区               N         
 Length:29          Min.   : 25.00  
 Class :character   1st Qu.: 80.00  
 Mode  :character   Median : 90.00  
                    Mean   : 86.21  
                    3rd Qu.: 90.00  
                    Max.   :100.00  

#王者最少的区

> dt_cn[,.(.N),by=.(所在战区)][N==25]
     所在战区  N
1: 教育网专区 25

#王者有100人的区(最多也就100人)

> dt_cn[,.(.N),by=.(所在战区)][N==100]
   所在战区   N
1: 均衡教派 100
2: 守望之海 100

外服王者数量:

plot_ly(dt_en[,.(.N),by=.(所在战区)],x=~所在战区,y=~N,type="bar")




外服王者数量较多(相对于国服一个区),可能原因是有的外服就一个服务器,比如韩国,另外也和捞月狗统计的数据有关.

国服各区平均胜点:

dt_cn[,.(mean=mean(胜点)),by=.(所在战区)]

这里并不能看出艾欧尼亚是最强的战区。

王者平常都是处于什么游戏状态:

wordcloud2(dt_cn[,.(.N),by=.(最近状态)])

英雄联盟的评价等级是这样递增的D-,D,D+;C-,C,C+;B-,B,B+;A-,A,A+;S-,S,S+!大部分王者的最近状态往往都是S级别的状态。可惜的是该数据集中没有其他段位的数据,如果有的话还可以比较一下各个段位玩家的平时的游戏状态。

王者擅长的位置:


各个大区的王者比较喜欢打野和上单的位置。这两个位置也是英雄联盟中承受伤害比较多的位置,也可以说他们可能更倾向于玩"肉"一点的英雄吧。这样的英雄也是在职业联赛中经常说的容错率比较高。换句话说也就是:又肉又有输出型的英雄。


王者玩家本命英雄(当前版本2017.08.05):

#由于在爬去数据的时候有的本命英雄不是我们预想的,在这里将其删除(也就3~4个).

dt_all=fread(file.choose())
dt_cn<-dt_all[1:2497]
dt_1<-dt_cn[,本命英雄1]
dt_2<-dt_cn[,本命英雄2]
dt_3<-dt_cn[,本命英雄3]
all_hero<-c(dt_1,dt_2,dt_3) #所有的英雄
table(all_hero)%>%data.frame()%>%wordcloud2(shape='star')

#以星型方式绘制云图。



不愧是王者玩家,玩盲僧这样”骚气“操作的英雄。。。。。。(由于外服的本命英雄在爬取的时候爬到的都是一些图片链接,不方便可视化,所以以上云图不含外服数据)



总结:

  • 朋友们听我一句劝,放下游戏吧, 出去走走, 读几页自己喜欢的书,去自己喜欢的地方走走,陪陪喜欢的人,晚上无聊的时候 约几个朋友出去喝喝茶,聊聊天, 真的一天下来,你会发现还是玩游戏有意思!




下面这是为你准备的Python学习交流群,每晚八点半腾讯课堂准备直播分享Python零基础到项目框架开发的知识点,遇见不会的问题头疼?没有一个好的学习氛围?那还等什么,扫描下方二维码,和千人共同学习Python!

加入我们




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值