Python疫情数据的爬虫和可视化显示（四）代码重构&可视化显示_结合老师提供的疫情数据显示功能,如果不显示大洲这一列数据,要如何修改代码,请将-CSDN博客

本文链接：https://blog.csdn.net/szm1234/article/details/112717515

实现采集最近一日世界各种疫情数据

思路：

发送请求，获取疫情首页
从疫情首页中提取最近一日世界各种疫情字符串
从最近一日世界各种疫情字符串中，提取json格式字符串
把json格式字符串，转换为python类型
把python类型的数据，以json格式存入文件中
这个比较简单，我们只需要把之前的代码拿过来就可以了

# 导入相关模块
import requests                 #导入请求
import re
import bs4   #导入数据
import json

# 1. 发送请求，获取疫情首页的内容
# 1.1 发送请求，获取响应
response = requests.get('http://ncov.dxy.cn/ncovh5/view/pneumonia')
# 1.2 从响应中获取数据
home_page = response.content.decode()

# 2. 使用Beautiful Soup提取疫情数据
# 2.1 构建Beautiful Soup对象
soup = bs4.BeautifulSoup(home_page, 'lxml')
# 2.2 根据id属性查找，包含各国疫情信息的标签
find_script = soup.find(id = "getListByCountryTypeService2true")
# 2.3 获取中文文本的内容
country_text = find_script.string

# 3. 使用正则表达式提取json字符串
json_str = re.findall(r'\[.+\]', country_text)

# 4.把json字符串，转换为python类型数据
country_python_data = json.loads(json_str[0])

# 5. 把python类型的数据，以json格式存入文件中
with open('./last_day_country_virus_python_data.json', 'w') as fp:
    json.dump(country_python_data, fp, ensure_ascii = False)

F5运行，然后

报错
在这里插入图片描述
可以看到错误提醒是格式的问题，在存储过程中，发现是gbk格式，引起了冲突，那么要怎么办呢？

问题就在with open('./last_day_country_virus_python_data.json', 'w') as fp:的open函数中

我们只需要改成

with open('./last_day_country_virus_python_data.json', 'w', encoding='utf8') as fp:

这样就可以在写入文件时使用utf8格式

实现采集从01月23日以来世界各国的疫情数据

分析

找出01月23日以来世界各国的疫情数据的位置

首先，我们当然是大胆的猜测，怀疑statisticsData标签就是存储历史数据的地方
复制链接打开网页

 "statisticsData": "https://file1.dxycdn.com/2020/0315/553/3402160512808052518-135.json"

发现直接下载了一个json格式的文件

在这里插入图片描述

查看数据
我们可以发现，

这就是我们需要的数据

现在呢，我们找到了各国的全部数据，有两百多个url的链接，都需要发送请求，我们前面的代码是只能请求一次，所以要进行重构之前的代码

思路

重构原来的代码，以提高扩展性（说人话就是把每一步的功能都变成一个一个模块）
- 把功能封装到一个类中
- 每一个小功能变成一个方法
- 通过run方法启动爬虫
实现采集从01月23日以来的世界各国疫情数据

重构代码

# 导入相关模块
import requests                 
import re
import bs4                     
import json

class CoronaVirusSpider(object):
    def __init__(self):
        self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'

    def get_content_from_url(self, url):
        """
        根据url，获取相应内容的字符串数据
        :param url: 请求的url
        :return：相应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

    def parse_home_page(self, home_page):
        """
        解析首页的内容，获取解析后的python数据
        ：param home_page:首页内容
        ：return：解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = "getListByCountryTypeService2true")
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

    def save(self, data, path):
        # 把python类型的数据，以json格式存入文件中
        with open(path, 'w', encoding='utf8') as fp:
            json.dump(data, fp, ensure_ascii = False)

    def crawl_last_day_cornna_virus(self):
        """
        采集最近一天的各国疫情数据
        ：return
        """
        # 1. 发送请求，获取疫情首页
        home_page = self.get_content_from_url(self.home_url)
        # 2. 从疫情首页中提取最近一日世界各种疫情字符串
        last_day_country_virus = self.parse_home_page(home_page)
        # 3. 保存数据
        self.save(last_day_country_virus, './last_day_country_virus.json')
    def run(self):
        self.crawl_last_day_cornna_virus()

if __name__ == '__main__':
    spider = CoronaVirusSpider()
    spider.run()

这是一个代码的重构过程，新建了一个叫做CoronaVirusSpider()的类，用class来进行定义，object是继承的父类

CoronaVirusSpider()类中进行函数的设置

    def __init__(self):
        self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'

顾名思义，这是初始化的过程

由于类起到模板的作用，因此，可以在创建实例的时候，把我们认为必须绑定的属性强制填写进去。这里就用到Python当中的一个内置方法__init__方法，例如在CoronaVirusSpider类时，把home_url属性绑上去，我们把要爬虫的首页保存在self.home_url中

有小伙伴可能会发现，这里出现了"__"，关于python中的下划线，有以下说明：

函数:

前带_的变量: 标明是一个私有函数, 只用于标明,
前带两个_ ,后带两个_ 的函数: 标明是特殊函数
变量:
前带_的变量: 标明是一个私有变量, 只用于标明, 外部类还是可以访问到这个变量
前带两个_ ,后带两个_ 的变量: 标明是内置变量,
大写加下划线的变量: 标明是不会发生改变的全局变量

Python 的代码风格由 PEP 8 描述。这个文档描述了 Python 编程风格的方方面面。在遵守这个文档的条件下，不同程序员编写的 Python 代码可以保持最大程度的相似风格。这样就易于阅读，易于在程序员之间交流。

__init__方法的第一参数永远是self，表示创建的类实例本身，因此，在__init__方法内部，就可以把各种属性绑定到self，因为self就指向创建的实例本身。

和普通数相比，在类中定义函数只有一点不同，就是第一参数永远是类的本身实例变量self，并且调用时，不用传递该参数。除此之外，类的方法(函数）和普通函数没啥区别，你既可以用默认参数、可变参数或者关键字参数（*args是可变参数，args接收的是一个tuple，**kw是关键字参数，kw接收的是一个dict）。

根据url，获取相应内容的字符串数据

开始对照我们之前的代码操作

# 1. 发送请求，获取疫情首页的内容
# 1.1 发送请求，获取响应
response = requests.get('http://ncov.dxy.cn/ncovh5/view/pneumonia')
# 1.2 从响应中获取数据
home_page = response.content.decode()

这就是我们之前的第一步，对应如下的代码，定义了函数get_content_from_url，设置了url（网页地址）作为输入

    def get_content_from_url(self, url):
        """
        根据url，获取相应内容的字符串数据
        :param url: 请求的url
        :return：相应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

我们可以看到，最大的不同就是变成了一个模块，一个函数get_content_from_url，既然变成了一个函数，我们函数的目的就是要输出相应内容的字符串，所以要return我们的数据

解析首页的内容，获取解析后的python数据


# 2. 使用Beautiful Soup提取疫情数据
# 2.1 构建Beautiful Soup对象
soup = bs4.BeautifulSoup(home_page, 'lxml')
# 2.2 根据id属性查找，包含各国疫情信息的标签
find_script = soup.find(id = "getListByCountryTypeService2true")
# 2.3 获取中文文本的内容
country_text = find_script.string

# 3. 使用正则表达式提取json字符串
json_str = re.findall(r'\[.+\]', country_text)

# 4.把json字符串，转换为python类型数据
country_python_data = json.loads(json_str[0])

这一个模块是解析首页的内容，获取解析后的python数据

    def parse_home_page(self, home_page):
        """
        解析首页的内容，获取解析后的python数据
        ：param home_page:首页内容
        ：return：解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = "getListByCountryTypeService2true")
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

python数据保存json格式文件

# 5. 把python类型的数据，以json格式存入文件中
with open('./last_day_country_virus_python_data.json', 'w', encoding='utf8') as fp:
    json.dump(country_python_data, fp, ensure_ascii = False)

这一步需要外部输入数据，还有保存的目录地址，所以参数变量是data和path

    def save(self, data, path):
        # 把python类型的数据，以json格式存入文件中
        with open(path, 'w', encoding='utf8') as fp:
            json.dump(data, fp, ensure_ascii = False)

采集最近一天的各国疫情数据

前面的步骤模块完成了，现在可以开始集成到一起完成一些需要的操作了

def crawl_last_day_cornna_virus(self):
    """
    采集最近一天的各国疫情数据
    ：return
    """
    # 1. 发送请求，获取疫情首页
    home_page = self.get_content_from_url(self.home_url)
    # 2. 从疫情首页中提取最近一日世界各种疫情字符串
    last_day_country_virus = self.parse_home_page(home_page)
    # 3. 保存数据
    self.save(last_day_country_virus, './last_day_country_virus.json')

定义run

后面我们只需要调用run就可以执行crawl_last_day_cornna_virus的函数了

    def run(self):
        self.crawl_last_day_cornna_virus()

执行

if __name__ == '__main__':
    spider = CoronaVirusSpider()
    spider.run()

if __name__ == '__main__':的作用：

一个python文件通常有两种使用方法

第一是作为脚本直接执行
第二是 import 到其他的 python 脚本中被调用（模块重用）执行。因此 if __name__ == 'main': 的作用就是控制这两种情况执行代码的过程，在 if __name__ == 'main': 下的代码只有在第一种情况下（即文件作为脚本直接执行）才会被执行，而 import 到其他脚本中是不会被执行的。

这里我们是作为一个脚本直接执行，只是用来说明我们要执行指令。

所以我们spider = CoronaVirusSpider()调用CoronaVirusSpider类，然后.run就可以执行类中run的函数了

实现采集从01月23日以来的世界各国疫情数据

思路

现在我们就可以使用重构后的代码，俩敲写接下来的内容

加载各国疫情数据
遍历各国疫情数据
发送请求，获取各国从01月23日至今的json数据
把json数据转换为python类型的数据，添加列表中
把列表以json格式保存为文件

代码

def crawl_cornna_virus(self):
    """
    采集从01月23日以来的各国疫情数据 
    """
    # 1. 加载首页中各国疫情数据
    with open('./last_day_country_virus.json', encoding = 'utf8') as fp:
        last_day_country_virus = json.load(fp)

    ## 定义列表，用于存储各国一月二十三日以来的疫情数据
    coronal_virus = []

    # 2. 遍历各国疫情数据
    for country in last_day_country_virus:
        # 3. 发送请求，获取各国从01月23日至今的json数据
        statistics_data_url = country['statisticsData']
        statistics_data_json_str = self.get_content_from_url(statistics_data_url)
        # 4. 把json数据转换为python类型的数据，添加列表中
        statistics_data = json.loads(statistics_data_json_str)['data']
        for one_day in statistics_data:
            one_day['provinceName'] = country['provinceName']
            one_day['countryShortCode'] = country['countryShortCode']
        coronal_virus.extend(statistics_data)
        # 5. 把列表以json格式保存为文件
        self.save(coronal_virus, 'data/corona_virus.json')

说明

这段代码的理解对于零基础python来说还是有一定的难度

我们从for循环开始

for country in last_day_country_virus:

python的for循环还是非常的简单粗暴的，不像c/c++那样，只能操作基本的。

这里的country是我们的变量，相当于c语言中的for（i=0，i<100, i++）中的i，但又很强大

要对last_day_country_virus（前面读取到的首页中各国疫情的数据）进行一个遍历的操作，我们可以看到，last_day_country_virus这个列表中的内容，我们实际遍历的过程中，就是从001开始往下面进行一个遍历，每一个对象都有着很多的属性还有标签。我们要检索的内容就在每一项中

在这里插入图片描述
在这里我们更加直观的可以看到，在列表last_day_country_virus的001中，statisticsData对应的就是我们要找的URL

所以我们才有statistics_data_url = country['statisticsData']的操作，可以在索引每一个对象时，找到statisticsData标签所对应的内容，并且保存到statistics_data_url变量中
在这里插入图片描述
接下来的 statistics_data_json_str = self.get_content_from_url(statistics_data_url)就是调用我们的重构代码中的函数，获取国家对应的URL中的内容，然后保存到json字符串statistics_data_json_str中，可以看到，statistics_data_json_str中获取到的内容如下所示，我们只需要‘data’标签包含的数据。

然后就是要statistics_data = json.loads(statistics_data_json_str)['data']，把statistics_data_json_str
在这里插入图片描述
上面我们成功获取了每个国家的数据，但是每个国家对应的名字我们还没有得到，所以同理，对statistics_data进行遍历，查找名字。

			for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
                one_day['countryShortCode'] = country['countryShortCode']

现在我们得到了数据，要存放在一起，就要有个列表，所以在for循环前定义一个列表coronal_virus

## 定义列表，用于存储各国一月二十三日以来的疫情数据
        coronal_virus = []

extend功能是对数据进行追加，这样，每次获取的数据都可以追加在coronal_virus 列表中

最后进行一个保存

            coronal_virus.extend(statistics_data)
            # 5. 把列表以json格式保存为文件
            self.save(coronal_virus, 'data/corona_virus.json')

F5就可以运行了，这时候需要很长的时间来进行爬虫，毕竟数据还是很多的

为了更加直观的看到程序的运行状态，我们可以使用tqdm这个库来进行一个进度条的显示

首先安装

pip install tqbm

在for循环处，添加代码

        for country in tqdm.tqdm(last_day_country_virus, '采集2020年01月23日以来的各国疫情数据'):

这样我们就可以看到运行的进度条了
在这里插入图片描述

完整代码

# 导入相关模块
import requests                 
import re
import bs4                     
import json
import tqdm

class CoronaVirusSpider(object):
    def __init__(self):
        self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'

    def get_content_from_url(self, url):
        """
        根据url，获取相应内容的字符串数据
        :param url: 请求的url
        :return：相应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

    def parse_home_page(self, home_page):
        """
        解析首页的内容，获取解析后的python数据
        ：param home_page:首页内容
        ：return：解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = "getListByCountryTypeService2true")
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

    def save(self, data, path):
        # 把python类型的数据，以json格式存入文件中
        with open(path, 'w', encoding='utf8') as fp:
            json.dump(data, fp, ensure_ascii = False)

    def crawl_last_day_cornna_virus(self):
        """
        采集最近一天的各国疫情数据
        ：return
        """
        # 1. 发送请求，获取疫情首页
        home_page = self.get_content_from_url(self.home_url)
        # 2. 从疫情首页中提取最近一日世界各种疫情字符串
        last_day_country_virus = self.parse_home_page(home_page)
        # 3. 保存数据
        self.save(last_day_country_virus, './last_day_country_virus.json')

    def crawl_cornna_virus(self):
        """
        采集从01月23日以来的各国疫情数据 
        """
        # 1. 加载首页中各国疫情数据
        with open('./last_day_country_virus.json', encoding = 'utf8') as fp:
            last_day_country_virus = json.load(fp)

        ## 定义列表，用于存储各国一月二十三日以来的疫情数据
        coronal_virus = []

        # 2. 遍历各国疫情数据
        for country in tqdm.tqdm(last_day_country_virus, '采集2020年01月23日以来的各国疫情数据'):
            # 3. 发送请求，获取各国从01月23日至今的json数据
            statistics_data_url = country['statisticsData']
            statistics_data_json_str = self.get_content_from_url(statistics_data_url)
            # 4. 把json数据转换为python类型的数据，添加列表中
            statistics_data = json.loads(statistics_data_json_str)['data']
            for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
                one_day['countryShortCode'] = country['countryShortCode']
            coronal_virus.extend(statistics_data)
            # 5. 把列表以json格式保存为文件
            self.save(coronal_virus, 'data/corona_virus.json')

    def run(self):
        self.crawl_cornna_virus()

if __name__ == '__main__':
    spider = CoronaVirusSpider()
    spider.run()

实现采集最近一日全国各省疫情数据

分析

确定页面中，最近一日的各省疫情数据的位置
打开网页http://ncov.dxy.cn/ncovh5/view/pneumonia，查看F12源码，然后Cril+F，搜索河北，

我们可以获取这个id了

思路

发送请求，获取疫情首页内容
解析疫情首页内容，获取最近一日各省疫情信息
以json格式保存疫情信息

代码

因为我们之前已经重构过代码，但是这里对应的相近功能的代码

   def parse_home_page(self, home_page):
        """
        解析首页的内容，获取解析后的python数据
        ：param home_page:首页内容
        ：return：解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = "getListByCountryTypeService2true")
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

我们的id需要更换，所以，我们可以对我们的重构代码重新进行重构，就是修改

    def parse_home_page(self, home_page, tag_id):
        """
        解析首页的内容，获取解析后的python数据
        ：param home_page:首页内容
        ：return：解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = tag_id)
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

修成这样之后，我们就有了id的输入，对于不同id的请求，也可以用这个函数了

最终，我们的实现过程就只需要三行代码就可以了

    def crawl_last_day_cornna_virus_of_china(self):
        """
        采集最近一日的各省疫情数据
        """
        # 1. 发送请求，获取疫情首页内容
        home_page = self.get_content_from_url(self.home_url)
        # 2. 解析疫情首页内容，获取最近一日各省疫情信息
        crawl_last_day_cornna_virus_of_china_data = self.parse_home_page(home_page, 'getAreaStat')
        # 3. 以json格式保存疫情信息
        self.save(crawl_last_day_cornna_virus_of_china_data, 'data/crawl_last_day_cornna_virus_of_china.json')

实现采集从01月23日以来全国各省疫情数据

类似于各国的疫情数据，我们找到上一步获取的json文件，可以看到熟悉的URL
在这里插入图片描述
点开后，确认过眼神，是她没错

思路

采集从01月23日以来全国各省疫情数据
- 加载最近一日全国疫情信息
- 遍历最近一日全国疫情信息，获取各省疫情URL
- 发送请求，获取各省疫情json字符串
- 解析各省疫情json字符串并且添加列表中
- 以json格式保存疫情信息
代码重构

代码

大部分代码和实现采集从01月23日以来的世界各国疫情数据代码一样

    def crawl_cornna_virus_of_china(self):
        """
        采集从01月23日以来全国各省疫情数据
        """
        # 加载最近一日全国疫情信息 
        with open('data/crawl_last_day_cornna_virus_of_china.json', encoding='utf8') as fp:
            last_day_country_virus_of_china = json.load(fp)

	    # 遍历最近一日全国疫情信息，获取各省疫情URL
        coronal_virus_of_china = []
        for country in tqdm.tqdm(last_day_country_virus_of_china, '采集2020年01月23日以来的各省疫情数据'):
            # 发送请求，获取各省疫情json字符串
            statistics_data_url = country['statisticsData']
            statistics_data_json_str = self.get_content_from_url(statistics_data_url)
            # 解析各省疫情json字符串并且添加列表中
            statistics_data = json.loads(statistics_data_json_str)['data']
            for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
            coronal_virus_of_china.extend(statistics_data)
            # 以json格式保存疫情信息
            self.save(coronal_virus_of_china, 'data/crawl_cornna_virus_of_china.json')

代码重构

既然和实现采集从01月23日以来的世界各国疫情数据代码差不多，那么也可以进行一个代码的重构

# 导入相关模块
import requests                 
import re
import bs4                     
import json
import tqdm

class CoronaVirusSpider(object):
    def __init__(self):
        self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'

    def get_content_from_url(self, url):
        """
        根据url，获取相应内容的字符串数据
        :param url: 请求的url
        :return：相应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

    def parse_home_page(self, home_page, tag_id):
        """
        解析首页的内容，获取解析后的python数据
        ：param home_page:首页内容
        ：return：解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = tag_id)
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

    def load(self, path):
        with open(path, encoding = 'utf8') as fp:
            data = json.load(fp)
        return data

    def save(self, data, path):
        # 把python类型的数据，以json格式存入文件中
        with open(path, 'w', encoding='utf8') as fp:
            json.dump(data, fp, ensure_ascii = False)

    def parse_crawl_cornna_virus(self, data, desc):
        """
        采集从01月23日以来**各**疫情数据
        """
	    # 遍历最近一日全国疫情信息，获取各省疫情URL
        returndata = []
        for country in tqdm.tqdm(data, desc):
            # 发送请求，获取各省疫情json字符串
            statistics_data_url = country['statisticsData']
            statistics_data_json_str = self.get_content_from_url(statistics_data_url)
            # 解析各省疫情json字符串并且添加列表中
            statistics_data = json.loads(statistics_data_json_str)['data']
            for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
                if country.get('countryShortCode'):
                    one_day['countryShortCode'] = country['countryShortCode']
            returndata.extend(statistics_data)
        return returndata

    def crawl_last_day_cornna_virus(self):
        """
        采集最近一天的各国疫情数据
        ：return
        """
        # 1. 发送请求，获取疫情首页
        home_page = self.get_content_from_url(self.home_url)
        # 2. 从疫情首页中提取最近一日世界各种疫情字符串
        last_day_country_virus = self.parse_home_page(home_page, 'getListByCountryTypeService2true')
        # 3. 保存数据
        self.save(last_day_country_virus, './last_day_country_virus.json')

    def crawl_cornna_virus(self):
        """
        采集从01月23日以来的各国疫情数据 
        """
        # 1. 加载首页中各国疫情数据
        last_day_country_virus = self.load('./last_day_country_virus.json')

        coronal_virus_of_china = self.parse_crawl_cornna_virus(last_day_country_virus, "采集2020年01月23日以来的各国疫情数据")
        
        # 5. 把列表以json格式保存为文件
        self.save(coronal_virus_of_china, 'data/corona_virus.json')

    def crawl_last_day_cornna_virus_of_china(self):
        """
        采集最近一日的各省疫情数据
        """
        # 1. 发送请求，获取疫情首页内容
        home_page = self.get_content_from_url(self.home_url)
        # 2. 解析疫情首页内容，获取最近一日各省疫情信息
        crawl_last_day_cornna_virus_of_china_data = self.parse_home_page(home_page, 'getAreaStat')
        # 3. 以json格式保存疫情信息
        self.save(crawl_last_day_cornna_virus_of_china_data, 'data/crawl_last_day_cornna_virus_of_china.json')

    def crawl_cornna_virus_of_china(self):
        """
        采集从01月23日以来全国各省疫情数据
        """
        # 加载最近一日全国疫情信息 
        last_day_country_virus_of_china = self.load('data/crawl_last_day_cornna_virus_of_china.json')

        coronal_virus_of_china = self.parse_crawl_cornna_virus(last_day_country_virus_of_china, '采集2020年01月23日以来的各省疫情数据')
        
        # 以json格式保存疫情信息
        self.save(coronal_virus_of_china, 'data/crawl_cornna_virus_of_china.json')
	    
    def run(self):
        self.crawl_cornna_virus_of_china()

if __name__ == '__main__':
    spider = CoronaVirusSpider()
    spider.run()

疫情爬虫项目总结

每一个爬虫任务都是由发送请求，获取相应，解析数据，保存数据三部分组成
发送请求，获取相应的代码和保存数据代码可以提取出来，提高代码复用性和可维护性
如果访问是相似结构网页，解析数据代码也可以进行提取出来，提高代码复用性和可维护性
每一个功能封装成为一个方法，方便扩展和维护

疫情数据可视化

实现最近一日全国各省疫情数据可视化

在这里插入图片描述
代码

# import pandas as pd
# import matplotlib.pyplot as plt
# import matplotlib as mpl
# import matplotlib.animation as animation
# from matplotlib.colors import rgb2hex
# from matplotlib.patches import Polygon
# import cartopy.crs as ccrs
# import cartopy.io.shapeader as shapeader

# 准备数据
import csv
import json
result = {'province':[],'province_confirmedCount':[]}
result['province'].append('台湾') 
result['province_confirmedCount'].append(18)
result['province'].append('香港') 
result['province_confirmedCount'].append(56)
result['province'].append('澳门') 
result['province_confirmedCount'].append(10)

# 批量删除多余字符的函数
def replace_something(source_str,replace_list):
    for line in replace_list:
        source_str = source_str.replace(line,"")
    return source_str

with open("data/crawl_last_day_cornna_virus_of_china.json",'r',encoding='utf8') as fp:
    reader = json.load(fp) # 读取文件数据
    for item in reader:
        # if reader.line_num == 1:
        #     continue
        # 定义删除的字串列表
        replace_list = ['省','市','壮族自治区','维吾尔自治区','回族自治区','自治区']
        # 调用删除字串的函数
        province_name =replace_something(item['provinceName'],replace_list) 
        if len(result['province']) == 34 :
            break
        if province_name in result['province']:
            continue
        else:
            result['province'].append(province_name)
            result['province_confirmedCount'].append(int(item['confirmedCount']))
# 绘制地图
from pyecharts import options as opts
from pyecharts.charts import Map

map = Map()
map.add("确诊人数", [list(z) for z in zip(result['province'],result['province_confirmedCount'])],'china')
map.set_global_opts(
    title_opts=opts.TitleOpts(title="疫情地图"),
    visualmap_opts=opts.VisualMapOpts(max_=2000),
)
map.render(path="疫情地图.html")