目标:
- 完成对王者荣耀游戏的所有英雄头像、皮肤等数据的内容爬取及图片下载,所涉及到的模块内容有requests、json、lxml、selenium、os等。王者荣耀英雄官网地址如下:https://pvp.qq.com/web201605/herolist.shtml
方法与思路:
- 爬取官网的整个页面数据,即页面中的 HTML 数据内容。
- 分析全网数据,并提取英雄信息,字段内容有英雄名称、英雄图片地址、详情链接地址等,以 csv 格式的 文件保存到本地。
- 通过读取 csv 文件数据,并爬取英雄详情页面的皮肤信息,从第 1 个(“云中君”)至最后一个英雄(“廉 颇”),然后保存数据,英雄皮肤数据信息文件为 json文件;
- 从文件中读取英雄皮肤信息,并提取皮肤名称、皮肤图片地址,然后下载图片,把图片命名为“皮肤名称.jpg” 进行保存。
- 从csv 文件中读取数据内容,获得英雄名称、图片地址;创建相应的英雄名称的目录,下载图片。
需要的库:
- requests
- os
- selenium
- re
- lxml
- json
- matplotlib
项目过程:
-
爬取网页信息
2.新建html文件保存在本地
3.抓取英雄信息
4.以csv格式保存在本地
5.从文件中读取英雄信息,并提取名称、图片地址,然后下载图片,把图片命名为“名称.jpg”进行保存 ;
6.使用 selenium 操作界面化浏览器(Chrome),先安装 Chrome 浏览器、使用 chrome 驱动文件;
7.提取皮肤数据信息,通过读取 csv 文件数据,并爬取英雄详情页面的皮肤信息,从第 1 个(“云中君”)至最后一个英雄(“廉颇”), 然后,保存数据,英雄皮肤数据信息文件为 json。
8.王者皮肤数量分析图,读取 json 文件中的数据; --名称、皮肤地址
获得英雄名称、皮肤个数 [英雄名称]、[皮肤个数]
9.绘制分析图:
成果代码地址:
链接:https://pan.baidu.com/s/1d16j7HVEAty4fGtK6JyjMA
提取码:ncqh