文章目录
实现 采集最近一日世界各种疫情数据
思路:
- 发送请求,获取疫情首页
- 从疫情首页中提取最近一日世界各种疫情字符串
- 从最近一日世界各种疫情字符串中,提取json格式字符串
- 把json格式字符串,转换为python类型
- 把python类型的数据,以json格式存入文件中
这个比较简单,我们只需要把之前的代码拿过来就可以了
# 导入相关模块
import requests #导入请求
import re
import bs4 #导入数据
import json
# 1. 发送请求,获取疫情首页的内容
# 1.1 发送请求,获取响应
response = requests.get('http://ncov.dxy.cn/ncovh5/view/pneumonia')
# 1.2 从响应中获取数据
home_page = response.content.decode()
# 2. 使用Beautiful Soup提取疫情数据
# 2.1 构建Beautiful Soup对象
soup = bs4.BeautifulSoup(home_page, 'lxml')
# 2.2 根据id属性查找,包含各国疫情信息的标签
find_script = soup.find(id = "getListByCountryTypeService2true")
# 2.3 获取中文文本的内容
country_text = find_script.string
# 3. 使用正则表达式提取json字符串
json_str = re.findall(r'\[.+\]', country_text)
# 4.把json字符串,转换为python类型数据
country_python_data = json.loads(json_str[0])
# 5. 把python类型的数据,以json格式存入文件中
with open('./last_day_country_virus_python_data.json', 'w') as fp:
json.dump(country_python_data, fp, ensure_ascii = False)
F5运行,然后
报错
可以看到错误提醒是格式的问题,在存储过程中,发现是gbk格式,引起了冲突,那么要怎么办呢?
问题就在with open('./last_day_country_virus_python_data.json', 'w') as fp:
的open函数中
我们只需要改成
with open('./last_day_country_virus_python_data.json', 'w', encoding='utf8') as fp:
这样就可以在写入文件时使用utf8格式
实现 采集从01月23日以来世界各国的疫情数据
分析
找出01月23日以来世界各国的疫情数据的位置
- 首先,我们当然是大胆的猜测,怀疑statisticsData标签就是存储历史数据的地方
- 复制链接打开网页
"statisticsData": "https://file1.dxycdn.com/2020/0315/553/3402160512808052518-135.json"
发现直接下载了一个json格式的文件
- 查看数据
我们可以发现,
这就是我们需要的数据
现在呢,我们找到了各国的全部数据,有两百多个url的链接,都需要发送请求,我们前面的代码是只能请求一次,所以要进行重构之前的代码
思路
- 重构原来的代码,以提高扩展性(说人话就是把每一步的功能都变成一个一个模块)
- 把功能封装到一个类中
- 每一个小功能变成一个方法
- 通过run方法启动爬虫
- 实现采集从01月23日以来的世界各国疫情数据
重构代码
# 导入相关模块
import requests
import re
import bs4
import json
class CoronaVirusSpider(object):
def __init__(self):
self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'
def get_content_from_url(self, url):
"""
根据url,获取相应内容的字符串数据
:param url: 请求的url
:return:相应内容的字符串
"""
response = requests.get(url)
return response.content.decode()
def parse_home_page(self, home_page):
"""
解析首页的内容,获取解析后的python数据
:param home_page:首页内容
:return:解析后的python数据
"""
soup = bs4.BeautifulSoup(home_page, 'lxml')
find_script = soup.find(id = "getListByCountryTypeService2true")
text = find_script.string
json_str = re.findall(r'\[.+\]', text)
python_data = json.loads(json_str[0])
return python_data
def save(self, data, path):
# 把python类型的数据,以json格式存入文件中
with open(path, 'w', encoding='utf8') as fp:
json.dump(data, fp, ensure_ascii = False)
def crawl_last_day_cornna_virus(self):
"""
采集最近一天的各国疫情数据
:return
"""
# 1. 发送请求,获取疫情首页
home_page = self.get_content_from_url(self.home_url)
# 2. 从疫情首页中提取最近一日世界各种疫情字符串
last_day_country_virus = self.parse_home_page(home_page)
# 3. 保存数据
self.save(last_day_country_virus, './last_day_country_virus.json')
def run(self):
self.crawl_last_day_cornna_virus()
if __name__ == '__main__':
spider = CoronaVirusSpider()
spider.run()
这是一个代码的重构过程,新建了一个叫做CoronaVirusSpider()的类,用class来进行定义,object是继承的父类
CoronaVirusSpider()类中进行函数的设置
def __init__(self):
self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'
顾名思义,这是初始化的过程
由于类起到模板的作用,因此,可以在创建实例的时候,把我们认为必须绑定的属性强制填写进去。这里就用到Python当中的一个内置方法__init__
方法,例如在CoronaVirusSpider类时,把home_url属性绑上去,我们把要爬虫的首页保存在self.home_url中
有小伙伴可能会发现,这里出现了"__",关于python中的下划线,有以下说明:
函数:
- 前带_的变量: 标明是一个私有函数, 只用于标明,
- 前带两个_ ,后带两个_ 的函数: 标明是特殊函数
变量: - 前带_的变量: 标明是一个私有变量, 只用于标明, 外部类还是可以访问到这个变量
- 前带两个_ ,后带两个_ 的变量: 标明是内置变量,
- 大写加下划线的变量: 标明是 不会发生改变的全局变量
Python 的代码风格由 PEP 8 描述。这个文档描述了 Python 编程风格的方方面面。在遵守这个文档的条件下,不同程序员编写的 Python 代码可以保持最大程度的相似风格。这样就易于阅读,易于在程序员之间交流。
__init__
方法的第一参数永远是self,表示创建的类实例本身,因此,在__init__
方法内部,就可以把各种属性绑定到self,因为self就指向创建的实例本身。
和普通数相比,在类中定义函数只有一点不同,就是第一参数永远是类的本身实例变量self,并且调用时,不用传递该参数。除此之外,类的方法(函数)和普通函数没啥区别,你既可以用默认参数、可变参数或者关键字参数(*args是可变参数,args接收的是一个tuple,**kw是关键字参数,kw接收的是一个dict)。
根据url,获取相应内容的字符串数据
开始对照我们之前的代码操作
# 1. 发送请求,获取疫情首页的内容
# 1.1 发送请求,获取响应
response = requests.get('http://ncov.dxy.cn/ncovh5/view/pneumonia')
# 1.2 从响应中获取数据
home_page = response.content.decode()
这就是我们之前的第一步,对应如下的代码,定义了函数get_content_from_url,设置了url(网页地址)作为输入
def get_content_from_url(self, url):
"""
根据url,获取相应内容的字符串数据
:param url: 请求的url
:return:相应内容的字符串
"""
response = requests.get(url)
return response.content.decode()
我们可以看到,最大的不同就是变成了一个模块,一个函数get_content_from_url,既然变成了一个函数,我们函数的目的就是要输出相应内容的字符串,所以要return我们的数据
解析首页的内容,获取解析后的python数据
# 2. 使用Beautiful Soup提取疫情数据
# 2.1 构建Beautiful Soup对象
soup = bs4.BeautifulSoup(home_page, 'lxml')
# 2.2 根据id属性查找,包含各国疫情信息的标签
find_script = soup.find(id = "getListByCountryTypeService2true")
# 2.3 获取中文文本的内容
country_text = find_script.string
# 3. 使用正则表达式提取json字符串
json_str = re.findall(r'\[.+\]', country_text)
# 4.把json字符串,转换为python类型数据
country_python_data = json.loads(json_str[0])
这一个模块是解析首页的内容,获取解析后的python数据
def parse_home_page(self, home_page):
"""
解析首页的内容,获取解析后的python数据
:param home_page:首页内容
:return:解析后的python数据
"""
soup = bs4.BeautifulSoup(home_page, 'lxml')
find_script = soup.find(id = "getListByCountryTypeService2true")
text = find_script.string
json_str = re.findall(r'\[.+\]', text)
python_data = json.loads(json_str[0])
return python_data
python数据保存json格式文件
# 5. 把python类型的数据,以json格式存入文件中
with open('./last_day_country_virus_python_data.json', 'w', encoding='utf8') as fp:
json.dump(country_python_data, fp, ensure_ascii = False)
这一步需要外部输入数据,还有保存的目录地址,所以参数变量是data和path
def save(self, data, path):
# 把python类型的数据,以json格式存入文件中
with open(path, 'w', encoding='utf8') as fp:
json.dump(data, fp, ensure_ascii = False)
采集最近一天的各国疫情数据
前面的步骤模块完成了,现在可以开始集成到一起完成一些需要的操作了
def crawl_last_day_cornna_virus(self):
"""
采集最近一天的各国疫情数据
:return
"""
# 1. 发送请求,获取疫情首页
home_page = self.get_content_from_url(self.home_url)
# 2. 从疫情首页中提取最近一日世界各种疫情字符串
last_day_country_virus = self.parse_home_page(home_page)
# 3. 保存数据
self.save(last_day_country_virus, './last_day_country_virus.json')
定义run
后面我们只需要调用run就可以执行crawl_last_day_cornna_virus的函数了
def run(self):
self.crawl_last_day_cornna_virus()
执行
if __name__ == '__main__':
spider = CoronaVirusSpider()
spider.run()
if __name__ == '__main__':
的作用:
一个python文件通常有两种使用方法
- 第一是作为脚本直接执行
- 第二是 import 到其他的 python 脚本中被调用(模块重用)执行。因此
if __name__ == 'main':
的作用就是控制这两种情况执行代码的过程,在if __name__ == 'main':
下的代码只有在第一种情况下(即文件作为脚本直接执行)才会被执行,而 import 到其他脚本中是不会被执行的。
这里我们是作为一个脚本直接执行,只是用来说明我们要执行指令。
所以我们spider = CoronaVirusSpider()
调用CoronaVirusSpider类,然后.run
就可以执行类中run的函数了
实现采集从01月23日以来的世界各国疫情数据
思路
现在我们就可以使用重构后的代码,俩敲写接下来的内容
- 加载各国疫情数据
- 遍历各国疫情数据
- 发送请求,获取各国从01月23日至今的json数据
- 把json数据转换为python类型的数据,添加列表中
- 把列表以json格式保存为文件
代码
def crawl_cornna_virus(self):
"""
采集从01月23日以来的各国疫情数据
"""
# 1. 加载首页中各国疫情数据
with open('./last_day_country_virus.json', encoding = 'utf8') as fp:
last_day_country_virus = json.load(fp)
## 定义列表,用于存储各国一月二十三日以来的疫情数据
coronal_virus = []
# 2. 遍历各国疫情数据
for country in last_day_country_virus:
# 3. 发送请求,获取各国从01月23日至今的json数据
statistics_data_url = country['statisticsData']
statistics_data_json_str = self.get_content_from_url(statistics_data_url)
# 4. 把json数据转换为python类型的数据,添加列表中
statistics_data = json.loads(statistics_data_json_str)['data']
for one_day in statistics_data:
one_day['provinceName'] = country['provinceName']
one_day['countryShortCode'] = country['countryShortCode']
coronal_virus.extend(statistics_data)
# 5. 把列表以json格式保存为文件
self.save(coronal_virus, 'data/corona_virus.json')
说明
这段代码的理解对于零基础python来说还是有一定的难度
我们从for循环开始
for country in last_day_country_virus:
python的for循环还是非常的简单粗暴的,不像c/c++那样,只能操作基本的。
这里的country是我们的变量,相当于c语言中的for(i=0,i<100, i++)中的i,但又很强大
要对last_day_country_virus(前面读取到的首页中各国疫情的数据)
进行一个遍历的操作,我们可以看到,last_day_country_virus这个列表中的内容,我们实际遍历的过程中,就是从001开始往下面进行一个遍历,每一个对象都有着很多的属性还有标签。我们要检索的内容就在每一项中
在这里我们更加直观的可以看到,在列表last_day_country_virus的001中,statisticsData对应的就是我们要找的URL
所以我们才有statistics_data_url = country['statisticsData']
的操作,可以在索引每一个对象时,找到statisticsData标签所对应的内容,并且保存到statistics_data_url变量中
接下来的 statistics_data_json_str = self.get_content_from_url(statistics_data_url)
就是调用我们的重构代码中的函数,获取国家对应的URL中的内容,然后保存到json字符串
statistics_data_json_str中,可以看到,statistics_data_json_str中获取到的内容如下所示,我们只需要‘data’标签包含的数据。
然后就是要statistics_data = json.loads(statistics_data_json_str)['data']
,把statistics_data_json_str
上面我们成功获取了每个国家的数据,但是每个国家对应的名字我们还没有得到,所以同理,对statistics_data进行遍历,查找名字。
for one_day in statistics_data:
one_day['provinceName'] = country['provinceName']
one_day['countryShortCode'] = country['countryShortCode']
现在我们得到了数据,要存放在一起,就要有个列表,所以在for循环前定义一个列表coronal_virus
## 定义列表,用于存储各国一月二十三日以来的疫情数据
coronal_virus = []
extend功能是对数据进行追加,这样,每次获取的数据都可以追加在coronal_virus 列表中
最后进行一个保存
coronal_virus.extend(statistics_data)
# 5. 把列表以json格式保存为文件
self.save(coronal_virus, 'data/corona_virus.json')
F5就可以运行了,这时候需要很长的时间来进行爬虫,毕竟数据还是很多的
为了更加直观的看到程序的运行状态,我们可以使用tqdm这个库来进行一个进度条的显示
首先安装
pip install tqbm
在for循环处,添加代码
for country in tqdm.tqdm(last_day_country_virus, '采集2020年01月23日以来的各国疫情数据'):
这样我们就可以看到运行的进度条了
完整代码
# 导入相关模块
import requests
import re
import bs4
import json
import tqdm
class CoronaVirusSpider(object):
def __init__(self):
self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'
def get_content_from_url(self, url):
"""
根据url,获取相应内容的字符串数据
:param url: 请求的url
:return:相应内容的字符串
"""
response = requests.get(url)
return response.content.decode()
def parse_home_page(self, home_page):
"""
解析首页的内容,获取解析后的python数据
:param home_page:首页内容
:return:解析后的python数据
"""
soup = bs4.BeautifulSoup(home_page, 'lxml')
find_script = soup.find(id = "getListByCountryTypeService2true")
text = find_script.string
json_str = re.findall(r'\[.+\]', text)
python_data = json.loads(json_str[0])
return python_data
def save(self, data, path):
# 把python类型的数据,以json格式存入文件中
with open(path, 'w', encoding='utf8') as fp:
json.dump(data, fp, ensure_ascii = False)
def crawl_last_day_cornna_virus(self):
"""
采集最近一天的各国疫情数据
:return
"""
# 1. 发送请求,获取疫情首页
home_page = self.get_content_from_url(self.home_url)
# 2. 从疫情首页中提取最近一日世界各种疫情字符串
last_day_country_virus = self.parse_home_page(home_page)
# 3. 保存数据
self.save(last_day_country_virus, './last_day_country_virus.json')
def crawl_cornna_virus(self):
"""
采集从01月23日以来的各国疫情数据
"""
# 1. 加载首页中各国疫情数据
with open('./last_day_country_virus.json', encoding = 'utf8') as fp:
last_day_country_virus = json.load(fp)
## 定义列表,用于存储各国一月二十三日以来的疫情数据
coronal_virus = []
# 2. 遍历各国疫情数据
for country in tqdm.tqdm(last_day_country_virus, '采集2020年01月23日以来的各国疫情数据'):
# 3. 发送请求,获取各国从01月23日至今的json数据
statistics_data_url = country['statisticsData']
statistics_data_json_str = self.get_content_from_url(statistics_data_url)
# 4. 把json数据转换为python类型的数据,添加列表中
statistics_data = json.loads(statistics_data_json_str)['data']
for one_day in statistics_data:
one_day['provinceName'] = country['provinceName']
one_day['countryShortCode'] = country['countryShortCode']
coronal_virus.extend(statistics_data)
# 5. 把列表以json格式保存为文件
self.save(coronal_virus, 'data/corona_virus.json')
def run(self):
self.crawl_cornna_virus()
if __name__ == '__main__':
spider = CoronaVirusSpider()
spider.run()
实现 采集最近一日全国各省疫情数据
分析
- 确定页面中,最近一日的各省疫情数据的位置
打开网页http://ncov.dxy.cn/ncovh5/view/pneumonia,查看F12源码,然后Cril+F
,搜索 河北,
我们可以获取这个id了
思路
- 发送请求,获取疫情首页内容
- 解析疫情首页内容,获取最近一日各省疫情信息
- 以json格式保存疫情信息
代码
因为我们之前已经重构过代码,但是这里对应的相近功能的代码
def parse_home_page(self, home_page):
"""
解析首页的内容,获取解析后的python数据
:param home_page:首页内容
:return:解析后的python数据
"""
soup = bs4.BeautifulSoup(home_page, 'lxml')
find_script = soup.find(id = "getListByCountryTypeService2true")
text = find_script.string
json_str = re.findall(r'\[.+\]', text)
python_data = json.loads(json_str[0])
return python_data
我们的id需要更换,所以,我们可以对我们的重构代码重新进行重构,就是修改
def parse_home_page(self, home_page, tag_id):
"""
解析首页的内容,获取解析后的python数据
:param home_page:首页内容
:return:解析后的python数据
"""
soup = bs4.BeautifulSoup(home_page, 'lxml')
find_script = soup.find(id = tag_id)
text = find_script.string
json_str = re.findall(r'\[.+\]', text)
python_data = json.loads(json_str[0])
return python_data
修成这样之后,我们就有了id的输入,对于不同id的请求,也可以用这个函数了
最终,我们的实现过程就只需要三行代码就可以了
def crawl_last_day_cornna_virus_of_china(self):
"""
采集最近一日的各省疫情数据
"""
# 1. 发送请求,获取疫情首页内容
home_page = self.get_content_from_url(self.home_url)
# 2. 解析疫情首页内容,获取最近一日各省疫情信息
crawl_last_day_cornna_virus_of_china_data = self.parse_home_page(home_page, 'getAreaStat')
# 3. 以json格式保存疫情信息
self.save(crawl_last_day_cornna_virus_of_china_data, 'data/crawl_last_day_cornna_virus_of_china.json')
实现 采集从01月23日以来全国各省疫情数据
类似于各国的疫情数据,我们找到上一步获取的json文件,可以看到熟悉的URL
点开后,确认过眼神,是她没错
思路
- 采集从01月23日以来全国各省疫情数据
- 加载最近一日全国疫情信息
- 遍历最近一日全国疫情信息,获取各省疫情URL
- 发送请求,获取各省疫情json字符串
- 解析各省疫情json字符串并且添加列表中
- 以json格式保存疫情信息
- 代码重构
代码
大部分代码和实现采集从01月23日以来的世界各国疫情数据代码一样
def crawl_cornna_virus_of_china(self):
"""
采集从01月23日以来全国各省疫情数据
"""
# 加载最近一日全国疫情信息
with open('data/crawl_last_day_cornna_virus_of_china.json', encoding='utf8') as fp:
last_day_country_virus_of_china = json.load(fp)
# 遍历最近一日全国疫情信息,获取各省疫情URL
coronal_virus_of_china = []
for country in tqdm.tqdm(last_day_country_virus_of_china, '采集2020年01月23日以来的各省疫情数据'):
# 发送请求,获取各省疫情json字符串
statistics_data_url = country['statisticsData']
statistics_data_json_str = self.get_content_from_url(statistics_data_url)
# 解析各省疫情json字符串并且添加列表中
statistics_data = json.loads(statistics_data_json_str)['data']
for one_day in statistics_data:
one_day['provinceName'] = country['provinceName']
coronal_virus_of_china.extend(statistics_data)
# 以json格式保存疫情信息
self.save(coronal_virus_of_china, 'data/crawl_cornna_virus_of_china.json')
代码重构
既然和实现采集从01月23日以来的世界各国疫情数据代码差不多,那么也可以进行一个代码的重构
# 导入相关模块
import requests
import re
import bs4
import json
import tqdm
class CoronaVirusSpider(object):
def __init__(self):
self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'
def get_content_from_url(self, url):
"""
根据url,获取相应内容的字符串数据
:param url: 请求的url
:return:相应内容的字符串
"""
response = requests.get(url)
return response.content.decode()
def parse_home_page(self, home_page, tag_id):
"""
解析首页的内容,获取解析后的python数据
:param home_page:首页内容
:return:解析后的python数据
"""
soup = bs4.BeautifulSoup(home_page, 'lxml')
find_script = soup.find(id = tag_id)
text = find_script.string
json_str = re.findall(r'\[.+\]', text)
python_data = json.loads(json_str[0])
return python_data
def load(self, path):
with open(path, encoding = 'utf8') as fp:
data = json.load(fp)
return data
def save(self, data, path):
# 把python类型的数据,以json格式存入文件中
with open(path, 'w', encoding='utf8') as fp:
json.dump(data, fp, ensure_ascii = False)
def parse_crawl_cornna_virus(self, data, desc):
"""
采集从01月23日以来**各**疫情数据
"""
# 遍历最近一日全国疫情信息,获取各省疫情URL
returndata = []
for country in tqdm.tqdm(data, desc):
# 发送请求,获取各省疫情json字符串
statistics_data_url = country['statisticsData']
statistics_data_json_str = self.get_content_from_url(statistics_data_url)
# 解析各省疫情json字符串并且添加列表中
statistics_data = json.loads(statistics_data_json_str)['data']
for one_day in statistics_data:
one_day['provinceName'] = country['provinceName']
if country.get('countryShortCode'):
one_day['countryShortCode'] = country['countryShortCode']
returndata.extend(statistics_data)
return returndata
def crawl_last_day_cornna_virus(self):
"""
采集最近一天的各国疫情数据
:return
"""
# 1. 发送请求,获取疫情首页
home_page = self.get_content_from_url(self.home_url)
# 2. 从疫情首页中提取最近一日世界各种疫情字符串
last_day_country_virus = self.parse_home_page(home_page, 'getListByCountryTypeService2true')
# 3. 保存数据
self.save(last_day_country_virus, './last_day_country_virus.json')
def crawl_cornna_virus(self):
"""
采集从01月23日以来的各国疫情数据
"""
# 1. 加载首页中各国疫情数据
last_day_country_virus = self.load('./last_day_country_virus.json')
coronal_virus_of_china = self.parse_crawl_cornna_virus(last_day_country_virus, "采集2020年01月23日以来的各国疫情数据")
# 5. 把列表以json格式保存为文件
self.save(coronal_virus_of_china, 'data/corona_virus.json')
def crawl_last_day_cornna_virus_of_china(self):
"""
采集最近一日的各省疫情数据
"""
# 1. 发送请求,获取疫情首页内容
home_page = self.get_content_from_url(self.home_url)
# 2. 解析疫情首页内容,获取最近一日各省疫情信息
crawl_last_day_cornna_virus_of_china_data = self.parse_home_page(home_page, 'getAreaStat')
# 3. 以json格式保存疫情信息
self.save(crawl_last_day_cornna_virus_of_china_data, 'data/crawl_last_day_cornna_virus_of_china.json')
def crawl_cornna_virus_of_china(self):
"""
采集从01月23日以来全国各省疫情数据
"""
# 加载最近一日全国疫情信息
last_day_country_virus_of_china = self.load('data/crawl_last_day_cornna_virus_of_china.json')
coronal_virus_of_china = self.parse_crawl_cornna_virus(last_day_country_virus_of_china, '采集2020年01月23日以来的各省疫情数据')
# 以json格式保存疫情信息
self.save(coronal_virus_of_china, 'data/crawl_cornna_virus_of_china.json')
def run(self):
self.crawl_cornna_virus_of_china()
if __name__ == '__main__':
spider = CoronaVirusSpider()
spider.run()
疫情爬虫项目总结
- 每一个爬虫任务都是由发送请求,获取相应,解析数据,保存数据三部分组成
- 发送请求,获取相应的代码 和 保存数据代码可以提取出来,提高代码复用性 和 可维护性
- 如果访问是相似结构网页,解析数据代码也可以进行提取出来,提高代码复用性 和 可维护性
- 每一个功能封装成为一个方法,方便扩展和维护
疫情数据可视化
实现 最近一日全国各省疫情数据 可视化
代码
# import pandas as pd
# import matplotlib.pyplot as plt
# import matplotlib as mpl
# import matplotlib.animation as animation
# from matplotlib.colors import rgb2hex
# from matplotlib.patches import Polygon
# import cartopy.crs as ccrs
# import cartopy.io.shapeader as shapeader
# 准备数据
import csv
import json
result = {'province':[],'province_confirmedCount':[]}
result['province'].append('台湾')
result['province_confirmedCount'].append(18)
result['province'].append('香港')
result['province_confirmedCount'].append(56)
result['province'].append('澳门')
result['province_confirmedCount'].append(10)
# 批量删除多余字符的函数
def replace_something(source_str,replace_list):
for line in replace_list:
source_str = source_str.replace(line,"")
return source_str
with open("data/crawl_last_day_cornna_virus_of_china.json",'r',encoding='utf8') as fp:
reader = json.load(fp) # 读取文件数据
for item in reader:
# if reader.line_num == 1:
# continue
# 定义删除的字串列表
replace_list = ['省','市','壮族自治区','维吾尔自治区','回族自治区','自治区']
# 调用删除字串的函数
province_name =replace_something(item['provinceName'],replace_list)
if len(result['province']) == 34 :
break
if province_name in result['province']:
continue
else:
result['province'].append(province_name)
result['province_confirmedCount'].append(int(item['confirmedCount']))
# 绘制地图
from pyecharts import options as opts
from pyecharts.charts import Map
map = Map()
map.add("确诊人数", [list(z) for z in zip(result['province'],result['province_confirmedCount'])],'china')
map.set_global_opts(
title_opts=opts.TitleOpts(title="疫情地图"),
visualmap_opts=opts.VisualMapOpts(max_=2000),
)
map.render(path="疫情地图.html")