Python抓取国家医疗费用数据:哪个国家花得最多、哪个国家花得最少

要求

网络抓取主要分为两部分:

  • 通过发出HTTP请求来获取数据

  • 通过解析HTMLDOM来提取重要数据

库和工具

  • Requests能够非常简单地发送HTTP请求。

  • Pandas是一个Python包,提供快速、灵活和有表现力的数据结构。

  • Web Scraper可以帮助在不设置任何自动化浏览器的情况下抓取动态网站。

  • Beautiful Soup是一个Python库,用于从HTML和XML文件中提取数据。

  • matplotlib是一个综合的库,用于在Python中创建静态、动画和交互式可视化效果。

设置

设置非常简单,只需创建一个文件夹,并安装BeautifulSoup和Requests。此处假设已经安装了Python3.x,再根据指令来创建文件夹并安装库。

pip install beautifulsoup4

pip install requests

pip install matplotlib

pip install pandas

现在,在该文件夹中创建一个任意名称的文件。这里用的是scraping.py.,然后在文件中导入Beautiful Soup和 requests,如下所示:

import pandas as pd

from bs4 import BeautifulSoup

import matplotlib.pyplot as plt

import requests

抓取的内容:国家名;人均开销。

)网络抓取


现在,所有scraper设置都已准备好,应向target URL发出GET请求以获得原始HTML数据。

r =requests.get( https://api.scrapingdog.com/scrape?api_key=<YOUR_API_KEY>&url=https://data.worldbank.org/indicator/SH.XPD.CHEX.PC.CD?most_recent_value_desc=false&dynamic=true ).text

这将得出target URL的HTML代码,我们必须使用Beautiful Soup来解析HTML。

soup = BeautifulSoup(r,’html.parser’)

country=list()

expense=list()

笔者用两张空表来存储国家名和每个国家24小时内的开支。可以看到,每个国家都存储在一个“项目”标签中,把所有的项目标签都存储在一张列表中。

try:

Countries=soup.find_all(“div”,{“class”:”item”})

except:

Countries=None

世界上有190个国家,为每个国家的医疗开支运行一个for循环:

for i in range(0,190):

country.append(Countries[i+1].find_all(“div”,{“class”:None})[0].text.replace(“”,””))

expense.append(round(float(Countries[i+1].find_all(“div”,{“class”:None})[2].text.replace(“”,””).replace(‘,’,’’)))/365)

Data = {‘country’:country,’expense’: expense}

因为我想看看这些国家每天是如何花钱的,所以把这笔费用除以365。如果把给定的数据直接除以365,这可能会更容易些,但这样就没有学习的意义了。现在的“数据”看起来是这样的:

最后

Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值