Python爬取网页所需内容+王者荣耀官网

目标:

  1. 完成对王者荣耀游戏的所有英雄头像、皮肤等数据的内容爬取及图片下载,所涉及到的模块内容有requestsjsonlxmlseleniumos等。王者荣耀英雄官网地址如下:https://pvp.qq.com/web201605/herolist.shtml

方法与思路:

  1. 爬取官网的整个页面数据,即页面中的 HTML 数据内容。
  2. 分析全网数据,并提取英雄信息,字段内容有英雄名称、英雄图片地址、详情链接地址等,以 csv 格式的 文件保存到本地。
  3. 通过读取 csv 文件数据,并爬取英雄详情页面的皮肤信息,从第 1 (“云中君”)至最后一个英雄(“廉 颇”),然后保存数据,英雄皮肤数据信息文件为 json文件
  4. 从文件中读取英雄皮肤信息,并提取皮肤名称、皮肤图片地址,然后下载图片,把图片命名为“皮肤名称.jpg” 进行保存。
  5. csv 文件中读取数据内容,获得英雄名称、图片地址;创建相应的英雄名称的目录,下载图片。

需要的库:

  1. requests
  2. os
  3. selenium
  4. re
  5. lxml
  6. json
  7. matplotlib

项目过程:

  1. 爬取网页信息

     ​​​​​​​2.新建html文件保存在本地

     3.抓取英雄信息

     4.以csv格式保存在本地

     5.从文件中读取英雄信息,并提取名称、图片地址,然后下载图片,把图片命名为“名称.jpg”进行保存 ;

     6.使用 selenium 操作界面化浏览器(Chrome),先安装 Chrome 浏览器、使用 chrome 驱动文件;

     7.提取皮肤数据信息,通过读取 csv 文件数据,并爬取英雄详情页面的皮肤信息,从第 1 (“云中君”)至最后一个英雄(“廉颇”), 然后,保存数据,英雄皮肤数据信息文件为 json

     8.王者皮肤数量分析图,读取 json 文件中的数据; --名称、皮肤地址

获得英雄名称、皮肤个数 [英雄名称]、[皮肤个数]

 

      9.绘制分析图:

成果代码地址:

链接:https://pan.baidu.com/s/1d16j7HVEAty4fGtK6JyjMA 
提取码:ncqh 

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智能视界探索者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值