【Python 实战基础】如何采集疫情数据并写入文件

最新推荐文章于 2022-11-27 17:27:46 发布

菜鸟实战

最新推荐文章于 2022-11-27 17:27:46 发布

阅读量495

点赞数 25

分类专栏： Python 实战基础文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/qq_39816613/article/details/125197098

版权

Python 实战基础专栏收录该内容

78 篇文章 12 订阅

订阅专栏

一、实战场景

从网站采集疫情数据，并写入到文件。

二、主要知识点

文件读写

基础语法

数据采集基础

request 库

BeautifulSoup 网页解析

三、菜鸟实战

马上安排！

1、创建 python 文件

'''
Author: 菜鸟编程实战
Description: 获取各国昨天最新的疫情信息
'''

import requests, re, json, platform
from bs4 import BeautifulSoup
import sys

# 加载工作空间
sys.path.append('..')

from py010 import config, util

print("Hello，菜鸟实战")
print("实战场景: 获取各国昨天最新的疫情信息 ")
print("采集开始...")

# 1、获取疫情首页数据
# 目标网站 TARGET_URL = "https://ncov.dxy.cn/ncovh5/view/pneumonia"
response = requests.get(config.TARGET_URL)
home_page_content = response.content.decode()

# 2、从疫情首页中提取最近一天各国疫情字符串
soup = BeautifulSoup(home_page_content, 'lxml')
script_content = soup.find(id='getListByCountryTypeService2true')
text = script_content.string

# 3、从最近一天各国疫情字符串中提取json格式字符串
json_str = re.findall(r'\[.+\]',text)[0]

# 4、把json格式字符串，转换为 python 类型
last_day_corona_virus = json.loads(json_str)

# 5、把python类型的数据，以json格式存入文件中, 字符编码为 utf8
file_path = util.get_file_dir_by_name(config.FILE_ALL_COUNTRY)
with open(file_path, 'w', encoding='utf8') as fp:
    json.dump(last_day_corona_virus, fp, ensure_ascii=False)

print("采集结束.")
print("python 版本", platform.python_version())