Python疫情数据的爬虫和可视化显示(四)代码重构&可视化显示

实现 采集最近一日世界各种疫情数据

思路:

  1. 发送请求,获取疫情首页
  2. 从疫情首页中提取最近一日世界各种疫情字符串
  3. 从最近一日世界各种疫情字符串中,提取json格式字符串
  4. 把json格式字符串,转换为python类型
  5. 把python类型的数据,以json格式存入文件中
    这个比较简单,我们只需要把之前的代码拿过来就可以了
# 导入相关模块
import requests                 #导入请求
import re
import bs4   #导入数据
import json

# 1. 发送请求,获取疫情首页的内容
# 1.1 发送请求,获取响应
response = requests.get('http://ncov.dxy.cn/ncovh5/view/pneumonia')
# 1.2 从响应中获取数据
home_page = response.content.decode()

# 2. 使用Beautiful Soup提取疫情数据
# 2.1 构建Beautiful Soup对象
soup = bs4.BeautifulSoup(home_page, 'lxml')
# 2.2 根据id属性查找,包含各国疫情信息的标签
find_script = soup.find(id = "getListByCountryTypeService2true")
# 2.3 获取中文文本的内容
country_text = find_script.string

# 3. 使用正则表达式提取json字符串
json_str = re.findall(r'\[.+\]', country_text)

# 4.把json字符串,转换为python类型数据
country_python_data = json.loads(json_str[0])

# 5. 把python类型的数据,以json格式存入文件中
with open('./last_day_country_virus_python_data.json', 'w') as fp:
    json.dump(country_python_data, fp, ensure_ascii = False)
    

F5运行,然后

报错
在这里插入图片描述
可以看到错误提醒是格式的问题,在存储过程中,发现是gbk格式,引起了冲突,那么要怎么办呢?

问题就在with open('./last_day_country_virus_python_data.json', 'w') as fp:的open函数中

我们只需要改成

with open('./last_day_country_virus_python_data.json', 'w', encoding='utf8') as fp:

这样就可以在写入文件时使用utf8格式

实现 采集从01月23日以来世界各国的疫情数据

分析

找出01月23日以来世界各国的疫情数据的位置

  • 首先,我们当然是大胆的猜测,怀疑statisticsData标签就是存储历史数据的地方
    在这里插入图片描述
  • 复制链接打开网页
 "statisticsData": "https://file1.dxycdn.com/2020/0315/553/3402160512808052518-135.json"

发现直接下载了一个json格式的文件

在这里插入图片描述

  • 查看数据
    我们可以发现,
    在这里插入图片描述
    这就是我们需要的数据

现在呢,我们找到了各国的全部数据,有两百多个url的链接,都需要发送请求,我们前面的代码是只能请求一次,所以要进行重构之前的代码

思路

  • 重构原来的代码,以提高扩展性(说人话就是把每一步的功能都变成一个一个模块)
    • 把功能封装到一个类中
    • 每一个小功能变成一个方法
    • 通过run方法启动爬虫
  • 实现采集从01月23日以来的世界各国疫情数据

重构代码

# 导入相关模块
import requests                 
import re
import bs4                     
import json

class CoronaVirusSpider(object):
    def __init__(self):
        self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'

    def get_content_from_url(self, url):
        """
        根据url,获取相应内容的字符串数据
        :param url: 请求的url
        :return:相应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

    def parse_home_page(self, home_page):
        """
        解析首页的内容,获取解析后的python数据
        :param home_page:首页内容
        :return:解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = "getListByCountryTypeService2true")
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

    def save(self, data, path):
        # 把python类型的数据,以json格式存入文件中
        with open(path, 'w', encoding='utf8') as fp:
            json.dump(data, fp, ensure_ascii = False)

    def crawl_last_day_cornna_virus(self):
        """
        采集最近一天的各国疫情数据
        :return
        """
        # 1. 发送请求,获取疫情首页
        home_page = self.get_content_from_url(self.home_url)
        # 2. 从疫情首页中提取最近一日世界各种疫情字符串
        last_day_country_virus = self.parse_home_page(home_page)
        # 3. 保存数据
        self.save(last_day_country_virus, './last_day_country_virus.json')
    def run(self):
        self.crawl_last_day_cornna_virus()

if __name__ == '__main__':
    spider = CoronaVirusSpider()
    spider.run()

这是一个代码的重构过程,新建了一个叫做CoronaVirusSpider()的类,用class来进行定义,object是继承的父类

CoronaVirusSpider()类中进行函数的设置

    def __init__(self):
        self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'

顾名思义,这是初始化的过程

由于类起到模板的作用,因此,可以在创建实例的时候,把我们认为必须绑定的属性强制填写进去。这里就用到Python当中的一个内置方法__init__方法,例如在CoronaVirusSpider类时,把home_url属性绑上去,我们把要爬虫的首页保存在self.home_url中

有小伙伴可能会发现,这里出现了"__",关于python中的下划线,有以下说明:

函数:

  1. 前带_的变量: 标明是一个私有函数, 只用于标明,
  2. 前带两个_ ,后带两个_ 的函数: 标明是特殊函数
    变量:
  3. 前带_的变量: 标明是一个私有变量, 只用于标明, 外部类还是可以访问到这个变量
  4. 前带两个_ ,后带两个_ 的变量: 标明是内置变量,
  5. 大写加下划线的变量: 标明是 不会发生改变的全局变量

Python 的代码风格由 PEP 8 描述。这个文档描述了 Python 编程风格的方方面面。在遵守这个文档的条件下,不同程序员编写的 Python 代码可以保持最大程度的相似风格。这样就易于阅读,易于在程序员之间交流。

__init__方法的第一参数永远是self,表示创建的类实例本身,因此,在__init__方法内部,就可以把各种属性绑定到self,因为self就指向创建的实例本身。

和普通数相比,在类中定义函数只有一点不同,就是第一参数永远是类的本身实例变量self,并且调用时,不用传递该参数。除此之外,类的方法(函数)和普通函数没啥区别,你既可以用默认参数、可变参数或者关键字参数(*args是可变参数,args接收的是一个tuple,**kw是关键字参数,kw接收的是一个dict)。

根据url,获取相应内容的字符串数据

开始对照我们之前的代码操作

# 1. 发送请求,获取疫情首页的内容
# 1.1 发送请求,获取响应
response = requests.get('http://ncov.dxy.cn/ncovh5/view/pneumonia')
# 1.2 从响应中获取数据
home_page = response.content.decode()

这就是我们之前的第一步,对应如下的代码,定义了函数get_content_from_url,设置了url(网页地址)作为输入

    def get_content_from_url(self, url):
        """
        根据url,获取相应内容的字符串数据
        :param url: 请求的url
        :return:相应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

我们可以看到,最大的不同就是变成了一个模块,一个函数get_content_from_url,既然变成了一个函数,我们函数的目的就是要输出相应内容的字符串,所以要return我们的数据

解析首页的内容,获取解析后的python数据


# 2. 使用Beautiful Soup提取疫情数据
# 2.1 构建Beautiful Soup对象
soup = bs4.BeautifulSoup(home_page, 'lxml')
# 2.2 根据id属性查找,包含各国疫情信息的标签
find_script = soup.find(id = "getListByCountryTypeService2true")
# 2.3 获取中文文本的内容
country_text = find_script.string

# 3. 使用正则表达式提取json字符串
json_str = re.findall(r'\[.+\]', country_text)

# 4.把json字符串,转换为python类型数据
country_python_data = json.loads(json_str[0])

这一个模块是解析首页的内容,获取解析后的python数据

    def parse_home_page(self, home_page):
        """
        解析首页的内容,获取解析后的python数据
        :param home_page:首页内容
        :return:解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = "getListByCountryTypeService2true")
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

python数据保存json格式文件

# 5. 把python类型的数据,以json格式存入文件中
with open('./last_day_country_virus_python_data.json', 'w', encoding='utf8') as fp:
    json.dump(country_python_data, fp, ensure_ascii = False)

这一步需要外部输入数据,还有保存的目录地址,所以参数变量是data和path

    def save(self, data, path):
        # 把python类型的数据,以json格式存入文件中
        with open(path, 'w', encoding='utf8') as fp:
            json.dump(data, fp, ensure_ascii = False)

采集最近一天的各国疫情数据

前面的步骤模块完成了,现在可以开始集成到一起完成一些需要的操作了

def crawl_last_day_cornna_virus(self):
    """
    采集最近一天的各国疫情数据
    :return
    """
    # 1. 发送请求,获取疫情首页
    home_page = self.get_content_from_url(self.home_url)
    # 2. 从疫情首页中提取最近一日世界各种疫情字符串
    last_day_country_virus = self.parse_home_page(home_page)
    # 3. 保存数据
    self.save(last_day_country_virus, './last_day_country_virus.json')

定义run

后面我们只需要调用run就可以执行crawl_last_day_cornna_virus的函数了

    def run(self):
        self.crawl_last_day_cornna_virus()

执行

if __name__ == '__main__':
    spider = CoronaVirusSpider()
    spider.run()

if __name__ == '__main__':的作用:

一个python文件通常有两种使用方法

  • 第一是作为脚本直接执行
  • 第二是 import 到其他的 python 脚本中被调用(模块重用)执行。因此 if __name__ == 'main': 的作用就是控制这两种情况执行代码的过程,在 if __name__ == 'main': 下的代码只有在第一种情况下(即文件作为脚本直接执行)才会被执行,而 import 到其他脚本中是不会被执行的。

这里我们是作为一个脚本直接执行,只是用来说明我们要执行指令。

所以我们spider = CoronaVirusSpider()调用CoronaVirusSpider类,然后.run就可以执行类中run的函数了

实现采集从01月23日以来的世界各国疫情数据

思路

现在我们就可以使用重构后的代码,俩敲写接下来的内容

  1. 加载各国疫情数据
  2. 遍历各国疫情数据
  3. 发送请求,获取各国从01月23日至今的json数据
  4. 把json数据转换为python类型的数据,添加列表中
  5. 把列表以json格式保存为文件

代码

def crawl_cornna_virus(self):
    """
    采集从01月23日以来的各国疫情数据 
    """
    # 1. 加载首页中各国疫情数据
    with open('./last_day_country_virus.json', encoding = 'utf8') as fp:
        last_day_country_virus = json.load(fp)

    ## 定义列表,用于存储各国一月二十三日以来的疫情数据
    coronal_virus = []

    # 2. 遍历各国疫情数据
    for country in last_day_country_virus:
        # 3. 发送请求,获取各国从01月23日至今的json数据
        statistics_data_url = country['statisticsData']
        statistics_data_json_str = self.get_content_from_url(statistics_data_url)
        # 4. 把json数据转换为python类型的数据,添加列表中
        statistics_data = json.loads(statistics_data_json_str)['data']
        for one_day in statistics_data:
            one_day['provinceName'] = country['provinceName']
            one_day['countryShortCode'] = country['countryShortCode']
        coronal_virus.extend(statistics_data)
        # 5. 把列表以json格式保存为文件
        self.save(coronal_virus, 'data/corona_virus.json')

说明

这段代码的理解对于零基础python来说还是有一定的难度

我们从for循环开始

for country in last_day_country_virus:

python的for循环还是非常的简单粗暴的,不像c/c++那样,只能操作基本的。

这里的country是我们的变量,相当于c语言中的for(i=0,i<100, i++)中的i,但又很强大

要对last_day_country_virus(前面读取到的首页中各国疫情的数据)进行一个遍历的操作,我们可以看到,last_day_country_virus这个列表中的内容,我们实际遍历的过程中,就是从001开始往下面进行一个遍历,每一个对象都有着很多的属性还有标签。我们要检索的内容就在每一项中

在这里插入图片描述
在这里我们更加直观的可以看到,在列表last_day_country_virus的001中,statisticsData对应的就是我们要找的URL
在这里插入图片描述
所以我们才有statistics_data_url = country['statisticsData']的操作,可以在索引每一个对象时,找到statisticsData标签所对应的内容,并且保存到statistics_data_url变量中
在这里插入图片描述
接下来的 statistics_data_json_str = self.get_content_from_url(statistics_data_url)就是调用我们的重构代码中的函数,获取国家对应的URL中的内容,然后保存到json字符串statistics_data_json_str中,可以看到,statistics_data_json_str中获取到的内容如下所示,我们只需要‘data’标签包含的数据

然后就是要statistics_data = json.loads(statistics_data_json_str)['data'],把statistics_data_json_str
在这里插入图片描述
上面我们成功获取了每个国家的数据,但是每个国家对应的名字我们还没有得到,所以同理,对statistics_data进行遍历,查找名字。
在这里插入图片描述

			for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
                one_day['countryShortCode'] = country['countryShortCode']

现在我们得到了数据,要存放在一起,就要有个列表,所以在for循环前定义一个列表coronal_virus

## 定义列表,用于存储各国一月二十三日以来的疫情数据
        coronal_virus = []

extend功能是对数据进行追加,这样,每次获取的数据都可以追加在coronal_virus 列表中

最后进行一个保存

            coronal_virus.extend(statistics_data)
            # 5. 把列表以json格式保存为文件
            self.save(coronal_virus, 'data/corona_virus.json')

F5就可以运行了,这时候需要很长的时间来进行爬虫,毕竟数据还是很多的

为了更加直观的看到程序的运行状态,我们可以使用tqdm这个库来进行一个进度条的显示

首先安装

pip install tqbm

在for循环处,添加代码

        for country in tqdm.tqdm(last_day_country_virus, '采集2020年01月23日以来的各国疫情数据'):

这样我们就可以看到运行的进度条了
在这里插入图片描述

完整代码

# 导入相关模块
import requests                 
import re
import bs4                     
import json
import tqdm

class CoronaVirusSpider(object):
    def __init__(self):
        self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'

    def get_content_from_url(self, url):
        """
        根据url,获取相应内容的字符串数据
        :param url: 请求的url
        :return:相应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

    def parse_home_page(self, home_page):
        """
        解析首页的内容,获取解析后的python数据
        :param home_page:首页内容
        :return:解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = "getListByCountryTypeService2true")
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

    def save(self, data, path):
        # 把python类型的数据,以json格式存入文件中
        with open(path, 'w', encoding='utf8') as fp:
            json.dump(data, fp, ensure_ascii = False)

    def crawl_last_day_cornna_virus(self):
        """
        采集最近一天的各国疫情数据
        :return
        """
        # 1. 发送请求,获取疫情首页
        home_page = self.get_content_from_url(self.home_url)
        # 2. 从疫情首页中提取最近一日世界各种疫情字符串
        last_day_country_virus = self.parse_home_page(home_page)
        # 3. 保存数据
        self.save(last_day_country_virus, './last_day_country_virus.json')

    def crawl_cornna_virus(self):
        """
        采集从01月23日以来的各国疫情数据 
        """
        # 1. 加载首页中各国疫情数据
        with open('./last_day_country_virus.json', encoding = 'utf8') as fp:
            last_day_country_virus = json.load(fp)

        ## 定义列表,用于存储各国一月二十三日以来的疫情数据
        coronal_virus = []

        # 2. 遍历各国疫情数据
        for country in tqdm.tqdm(last_day_country_virus, '采集2020年01月23日以来的各国疫情数据'):
            # 3. 发送请求,获取各国从01月23日至今的json数据
            statistics_data_url = country['statisticsData']
            statistics_data_json_str = self.get_content_from_url(statistics_data_url)
            # 4. 把json数据转换为python类型的数据,添加列表中
            statistics_data = json.loads(statistics_data_json_str)['data']
            for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
                one_day['countryShortCode'] = country['countryShortCode']
            coronal_virus.extend(statistics_data)
            # 5. 把列表以json格式保存为文件
            self.save(coronal_virus, 'data/corona_virus.json')

    def run(self):
        self.crawl_cornna_virus()

if __name__ == '__main__':
    spider = CoronaVirusSpider()
    spider.run()

实现 采集最近一日全国各省疫情数据

分析

  • 确定页面中,最近一日的各省疫情数据的位置
    打开网页http://ncov.dxy.cn/ncovh5/view/pneumonia,查看F12源码,然后Cril+F,搜索 河北,
    在这里插入图片描述
    我们可以获取这个id了
    在这里插入图片描述

思路

  • 发送请求,获取疫情首页内容
  • 解析疫情首页内容,获取最近一日各省疫情信息
  • 以json格式保存疫情信息

代码

因为我们之前已经重构过代码,但是这里对应的相近功能的代码

   def parse_home_page(self, home_page):
        """
        解析首页的内容,获取解析后的python数据
        :param home_page:首页内容
        :return:解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = "getListByCountryTypeService2true")
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

我们的id需要更换,所以,我们可以对我们的重构代码重新进行重构,就是修改

    def parse_home_page(self, home_page, tag_id):
        """
        解析首页的内容,获取解析后的python数据
        :param home_page:首页内容
        :return:解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = tag_id)
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

修成这样之后,我们就有了id的输入,对于不同id的请求,也可以用这个函数了

最终,我们的实现过程就只需要三行代码就可以了

    def crawl_last_day_cornna_virus_of_china(self):
        """
        采集最近一日的各省疫情数据
        """
        # 1. 发送请求,获取疫情首页内容
        home_page = self.get_content_from_url(self.home_url)
        # 2. 解析疫情首页内容,获取最近一日各省疫情信息
        crawl_last_day_cornna_virus_of_china_data = self.parse_home_page(home_page, 'getAreaStat')
        # 3. 以json格式保存疫情信息
        self.save(crawl_last_day_cornna_virus_of_china_data, 'data/crawl_last_day_cornna_virus_of_china.json')

实现 采集从01月23日以来全国各省疫情数据

类似于各国的疫情数据,我们找到上一步获取的json文件,可以看到熟悉的URL
在这里插入图片描述
点开后,确认过眼神,是她没错
在这里插入图片描述

思路

  • 采集从01月23日以来全国各省疫情数据
    • 加载最近一日全国疫情信息
    • 遍历最近一日全国疫情信息,获取各省疫情URL
    • 发送请求,获取各省疫情json字符串
    • 解析各省疫情json字符串并且添加列表中
    • 以json格式保存疫情信息
  • 代码重构

代码

大部分代码和实现采集从01月23日以来的世界各国疫情数据代码一样

    def crawl_cornna_virus_of_china(self):
        """
        采集从01月23日以来全国各省疫情数据
        """
        # 加载最近一日全国疫情信息 
        with open('data/crawl_last_day_cornna_virus_of_china.json', encoding='utf8') as fp:
            last_day_country_virus_of_china = json.load(fp)

	    # 遍历最近一日全国疫情信息,获取各省疫情URL
        coronal_virus_of_china = []
        for country in tqdm.tqdm(last_day_country_virus_of_china, '采集2020年01月23日以来的各省疫情数据'):
            # 发送请求,获取各省疫情json字符串
            statistics_data_url = country['statisticsData']
            statistics_data_json_str = self.get_content_from_url(statistics_data_url)
            # 解析各省疫情json字符串并且添加列表中
            statistics_data = json.loads(statistics_data_json_str)['data']
            for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
            coronal_virus_of_china.extend(statistics_data)
            # 以json格式保存疫情信息
            self.save(coronal_virus_of_china, 'data/crawl_cornna_virus_of_china.json')
	    

代码重构

既然和实现采集从01月23日以来的世界各国疫情数据代码差不多,那么也可以进行一个代码的重构

# 导入相关模块
import requests                 
import re
import bs4                     
import json
import tqdm

class CoronaVirusSpider(object):
    def __init__(self):
        self.home_url = 'http://ncov.dxy.cn/ncovh5/view/pneumonia'

    def get_content_from_url(self, url):
        """
        根据url,获取相应内容的字符串数据
        :param url: 请求的url
        :return:相应内容的字符串
        """
        response = requests.get(url)
        return response.content.decode()

    def parse_home_page(self, home_page, tag_id):
        """
        解析首页的内容,获取解析后的python数据
        :param home_page:首页内容
        :return:解析后的python数据
        """
        soup = bs4.BeautifulSoup(home_page, 'lxml')
        find_script = soup.find(id = tag_id)
        text = find_script.string
        json_str = re.findall(r'\[.+\]', text)
        python_data = json.loads(json_str[0])
        return python_data

    def load(self, path):
        with open(path, encoding = 'utf8') as fp:
            data = json.load(fp)
        return data

    def save(self, data, path):
        # 把python类型的数据,以json格式存入文件中
        with open(path, 'w', encoding='utf8') as fp:
            json.dump(data, fp, ensure_ascii = False)

    def parse_crawl_cornna_virus(self, data, desc):
        """
        采集从01月23日以来**各**疫情数据
        """
	    # 遍历最近一日全国疫情信息,获取各省疫情URL
        returndata = []
        for country in tqdm.tqdm(data, desc):
            # 发送请求,获取各省疫情json字符串
            statistics_data_url = country['statisticsData']
            statistics_data_json_str = self.get_content_from_url(statistics_data_url)
            # 解析各省疫情json字符串并且添加列表中
            statistics_data = json.loads(statistics_data_json_str)['data']
            for one_day in statistics_data:
                one_day['provinceName'] = country['provinceName']
                if country.get('countryShortCode'):
                    one_day['countryShortCode'] = country['countryShortCode']
            returndata.extend(statistics_data)
        return returndata

    def crawl_last_day_cornna_virus(self):
        """
        采集最近一天的各国疫情数据
        :return
        """
        # 1. 发送请求,获取疫情首页
        home_page = self.get_content_from_url(self.home_url)
        # 2. 从疫情首页中提取最近一日世界各种疫情字符串
        last_day_country_virus = self.parse_home_page(home_page, 'getListByCountryTypeService2true')
        # 3. 保存数据
        self.save(last_day_country_virus, './last_day_country_virus.json')

    def crawl_cornna_virus(self):
        """
        采集从01月23日以来的各国疫情数据 
        """
        # 1. 加载首页中各国疫情数据
        last_day_country_virus = self.load('./last_day_country_virus.json')

        coronal_virus_of_china = self.parse_crawl_cornna_virus(last_day_country_virus, "采集2020年01月23日以来的各国疫情数据")
        
        # 5. 把列表以json格式保存为文件
        self.save(coronal_virus_of_china, 'data/corona_virus.json')

    def crawl_last_day_cornna_virus_of_china(self):
        """
        采集最近一日的各省疫情数据
        """
        # 1. 发送请求,获取疫情首页内容
        home_page = self.get_content_from_url(self.home_url)
        # 2. 解析疫情首页内容,获取最近一日各省疫情信息
        crawl_last_day_cornna_virus_of_china_data = self.parse_home_page(home_page, 'getAreaStat')
        # 3. 以json格式保存疫情信息
        self.save(crawl_last_day_cornna_virus_of_china_data, 'data/crawl_last_day_cornna_virus_of_china.json')

    def crawl_cornna_virus_of_china(self):
        """
        采集从01月23日以来全国各省疫情数据
        """
        # 加载最近一日全国疫情信息 
        last_day_country_virus_of_china = self.load('data/crawl_last_day_cornna_virus_of_china.json')

        coronal_virus_of_china = self.parse_crawl_cornna_virus(last_day_country_virus_of_china, '采集2020年01月23日以来的各省疫情数据')
        
        # 以json格式保存疫情信息
        self.save(coronal_virus_of_china, 'data/crawl_cornna_virus_of_china.json')
	    
    def run(self):
        self.crawl_cornna_virus_of_china()

if __name__ == '__main__':
    spider = CoronaVirusSpider()
    spider.run()

疫情爬虫项目总结

  1. 每一个爬虫任务都是由发送请求,获取相应,解析数据,保存数据三部分组成
  2. 发送请求,获取相应的代码 和 保存数据代码可以提取出来,提高代码复用性 和 可维护性
  3. 如果访问是相似结构网页,解析数据代码也可以进行提取出来,提高代码复用性 和 可维护性
  4. 每一个功能封装成为一个方法,方便扩展和维护

疫情数据可视化

实现 最近一日全国各省疫情数据 可视化

在这里插入图片描述
代码

# import pandas as pd
# import matplotlib.pyplot as plt
# import matplotlib as mpl
# import matplotlib.animation as animation
# from matplotlib.colors import rgb2hex
# from matplotlib.patches import Polygon
# import cartopy.crs as ccrs
# import cartopy.io.shapeader as shapeader

# 准备数据
import csv
import json
result = {'province':[],'province_confirmedCount':[]}
result['province'].append('台湾') 
result['province_confirmedCount'].append(18)
result['province'].append('香港') 
result['province_confirmedCount'].append(56)
result['province'].append('澳门') 
result['province_confirmedCount'].append(10)

# 批量删除多余字符的函数
def replace_something(source_str,replace_list):
    for line in replace_list:
        source_str = source_str.replace(line,"")
    return source_str

with open("data/crawl_last_day_cornna_virus_of_china.json",'r',encoding='utf8') as fp:
    reader = json.load(fp) # 读取文件数据
    for item in reader:
        # if reader.line_num == 1:
        #     continue
        # 定义删除的字串列表
        replace_list = ['省','市','壮族自治区','维吾尔自治区','回族自治区','自治区']
        # 调用删除字串的函数
        province_name =replace_something(item['provinceName'],replace_list) 
        if len(result['province']) == 34 :
            break
        if province_name in result['province']:
            continue
        else:
            result['province'].append(province_name)
            result['province_confirmedCount'].append(int(item['confirmedCount']))
# 绘制地图
from pyecharts import options as opts
from pyecharts.charts import Map

map = Map()
map.add("确诊人数", [list(z) for z in zip(result['province'],result['province_confirmedCount'])],'china')
map.set_global_opts(
    title_opts=opts.TitleOpts(title="疫情地图"),
    visualmap_opts=opts.VisualMapOpts(max_=2000),
)
map.render(path="疫情地图.html")
  • 7
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值