本组项目实训的内容是“疫情数据分析平台”,意在针对疫情大环境的形势下提供能便利人们生活或者方便人们查找数据的平台。而本人在本次项目中承担数据分析师这一职责,分析疫情的相关数据,让人们能清晰直观的了解疫情对世界带来了什么影响。在博客中我将详细记录我的思考和开发过程。
一:任务情况:
我将从网上爬取相关数据,对数据进行必要的数据清理将其达到可用的目的,然后使用机器学习和数据分析的相关算法分析疫情形式中所蕴涵的内容,最后将其呈现出来。
二:需求分析:
在进行我的工作之前,我需要完成最核心的问题,就是“分析什么”这个问题。这点与我之前上机器学习课,和进行课设的内容完全不同。之前的课设都是已经明确了任务目标,然后为了达成这个目标就进行算法的编写,重点是用什么算法和优化手段来提高正确率。而本次项目实训就大不相同了,它是一个开放的内容,所以核心问题就是“要分析什么”,“怎么分析”,分析的方向的确定。
我的思考过程如下:
要分析什么,我觉得要从疫情本身出发,最明显的分析内容就是1:疫情的增长趋势。这是最显而易见的数据分析内容。2:疫情的传播性和致病性,这点也是我最开始思考的可以进行疫情分析的选项。既然我们的平台是为了方便疫情大环境下的人们,那逆向思考疫情会对我们带来什么不便利,最明显就是出行,所以3:出现分析也是可以进行数据分析的。疫情会导致封城和商店的关门,所以疫情对商业和经济会带来打击顺利成章的我们也有了4:疫情对商业和经济形式的影响分析,既然疫情会对商业产生打击,但会促进医学的发展5:疫情对医学的影响,这点也有了。疫情也会导致出现的谣言等所以我们也可以针对6:舆情分析。疫情还会导致物价的上涨,所以7:疫情对物价的影响。以上都是我思考能进行数据分析的几个点。
三:最终确定
我开始是想做一个疫情数据预测的,但这前期遇到了许多困难。首先新冠是有不同种类的(-19,奥密克戎,德尔塔)不同种类传染性和致病性是不同的,其次是疫苗情况,-19开始初期是没有疫苗的,等到奥密克戎时期大多是接种了三针,还有政策因素,地区因素,感染者的活动因素等等太多太杂了,强行做又太缺乏真实性,所以我就暂时放弃这个想法。
SH疫情给我了灵感,我发现大规模疫情往往都是一个地区爆发,然后该地区向外扩散的。例如中国最开始的疫情爆发在WH,其他地区都是WH的人口流动导致的。纵观中国内地的疫情,其实只有两次大规模的爆发,就是WH和本次SH疫情。而其特点都是一点爆发,扩散式的蔓延,所以我想到一个分析的思路就是——距离和人口流动对疫情传播的影响。
在大量思考后,我首先明确了分析的方向。就是距离和人口流动对疫情传播的影响。