目录
一、实战场景
从网站采集疫情数据,并写入到文件。
二、主要知识点
文件读写
基础语法
数据采集基础
request 库
BeautifulSoup 网页解析
三、菜鸟实战
马上安排!
1、创建 python 文件
''' Author: 菜鸟编程实战 Description: 获取各国昨天最新的疫情信息 ''' import requests, re, json, platform from bs4 import BeautifulSoup import sys # 加载工作空间 sys.path.append('..') from py010 import config, util print("Hello,菜鸟实战") print("实战场景: 获取各国昨天最新的疫情信息 ") print("采集开始...") # 1、获取疫情首页数据 # 目标网站 TARGET_URL = "https://ncov.dxy.cn/ncovh5/view/pneumonia" response = requests.get(config.TARGET_URL) home_page_content = response.content.decode() # 2、从疫情首页中提取最近一天各国疫情字符串 soup = BeautifulSoup(home_page_content, 'lxml') script_content = soup.find(id='getListByCountryTypeService2true') text = script_content.string # 3、从最近一天各国疫情字符串中提取json格式字符串 json_str = re.findall(r'\[.+\]',text)[0] # 4、把json格式字符串,转换为 python 类型 last_day_corona_virus = json.loads(json_str) # 5、把python类型的数据,以json格式存入文件中, 字符编码为 utf8 file_path = util.get_file_dir_by_name(config.FILE_ALL_COUNTRY) with open(file_path, 'w', encoding='utf8') as fp: json.dump(last_day_corona_virus, fp, ensure_ascii=False) print("采集结束.") print("python 版本", platform.python_version())
2、文件目录
py-010/
├── data
│ ├── all_country_corona_virus.json
├── spiders
│ ├── spider_1.py
3、运行结果
Hello,菜鸟实战
实战场景: 获取各国昨天最新的疫情信息
采集开始...
采集结束.
python 版本 3.10.4
菜鸟实战,持续学习,需要源码的同学点赞评论后添加微信免费领取~