数据分析day4

      今天我们主要聚焦于项目的全面展开,我们先针对最终确定的网站,运用爬虫技术进行了详尽的数据抓取工作。随后,我们进行了精确的数据可视化处理,旨在通过图形、图表等直观形式,将复杂的数据转化为易于理解的视觉信息。

1.部分网页的爬取

今天上午的工作,主要是通过requests库和lxml模块爬取了中羽在线网站的装备库界面,获取了羽毛球拍、羽毛球鞋和羽毛球前十页的名称、品牌和评分的信息,放在了csv文件,在这个过程中,我们充分利用了数据分析工具和编程技能,对数据进行清洗、整理和分析,确保了可视化结果的准确性和可靠性。

1-1羽毛球拍相关信息的爬取

该网页所呈现的羽毛球拍信息如下所示:

通过浏览器查询源代码找出所需的信息的xpath路径,定位到名称、品牌和评分的信息如下图所示:

从而进行爬取,其关键代码如下:

   # 遍历表格中的每一行
    for tr in html.xpath("//div[@class='dleft']/div[@class='list']/table/tr"):
        qiupai_name_nodes = tr.xpath("./td/a[@class='listName']/text()")
        if qiupai_name_nodes:
            qiupai_name = re.sub(r'\s+', '', ''.join(qiupai_name_nodes).strip())
            qiupainame_list.append(qiupai_name)

        pingfen = tr.xpath("./td/span[@class='right']/span/text()")
        if pingfen:
            pingfen_list.append(pingfen[0].strip())

        pinpai = tr.xpath("./td/a[2]/text()")
        if pinpai:
            pinpai_list.append(pinpai[0].strip())

爬取部分结果为:

1-2羽毛球鞋相关信息的爬取

由于该网页所呈现的羽毛球鞋信息格式如羽毛球拍的信息格式相同,其网页如下所示:

所以只需对爬取羽毛球鞋的关键代码进行变动,即可爬取成功,其爬取部分结果如下所示:

1-3羽毛球相关信息的爬取

同理,羽毛球信息的呈现格式与前两者相同,如下图所示:

仅改动部分代码即可爬取成功,其爬取部分结果如下所示:

2.数据可视化

通过我们小组的紧密协作与不懈努力,我们成功完成了所有计划中网页的爬取任务。紧接着,我们迅速转入对这批宝贵数据的可视化处理阶段,以揭示数据的深层含义和潜在价值。在这个过程中,我主要负责了三个网页数据的可视化处理工作。

2-1全球各地区总运动员人数的排名图

将爬取下来的2024巴黎奥运会羽毛球积分排名Top100的男单和女单所对应的国家进行统计,将每个地区的运动员总人数进行排名,取前10位得出如下结果:

2-2品牌综合评分图

由上午爬取了三个装备的名称、品牌和评分信息,我将所爬取的各品牌所对应的评分进行加总,取前15名的品牌进行排序,其结果如下所示:

2-5场馆分布地图

将所爬取下来的中国各省份所对应的羽毛球场馆数数据对应到中国地图,绘制成热力图的形式,其结果如下所示:

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值