一、背景
疫情至今近三年,国家和各省市卫健委官网都是通过全文本通报每日疫情数据,内容数据里有境外、国内,有确诊、无症状,确诊里又可能含无症状转确诊(各地通报不一样)等等,一堆文字和数据看的确实头疼,一直不明白为什么不做成表格,降低信息传递的成本。最近有点时间,就尝试做了个这样的项目:每日自动获取国家卫健委官网疫情数据转并为表格,再自动发布到今日头条。
二、程序执行效果
先看下程序执行的效果吧:
三、方案实现
1、总体方案
整体方案如下图,流程比较清晰,重点是如何通过程序发布头条(下文会展开描述)。开发语言选择Python,主要原因是:有丰富的相关功能包,语法相对简单,解析语言跨平台方便。
2、数据获取
这一步骤大致如下,相对简单,具体就不展开描述了:
1、http get 网页内容
2、通过BeautifulSoup 解析HTML,清洗html文本数据,获取疫情文本内容