平常我的工作和机器学习相关,我看到数据的第一反应就是构建模型来预测,于是我今天花了几个小时做了下这个工作。
下面是两周的全国层面的疫情数据,我们能不能,基于这 14 条数据,预测一下明天的新增确诊人数呢?做到技术与时事的结合。
其中各个字段名称含义如下:
-
new:每天新增确诊人数,昨天新增为 2829
-
all:当前总共确诊人数
-
watch:当前医学观察人数
先说结论吧:
预测明天公布的新增确诊人数为 2997 人,有浮动哈,具体浮动多少我也不敢说,怕脸疼!
分析
说说我是怎么分析的吧,所有确诊人数和新增确诊人数我们看一个就行了,这里我选的是每日新增确诊人数,来看看每日新增确诊人数的折线图(目的是观察相等时间间隔下数据的趋势)

可以看到一个随时间稳步攀升的趋势,这是我们期望预测的指标,也就是我们的因变量。
接下来看看因变量,也就是我们的当前医学观察人数:

再给这两个变量画个图:
plt.figure()
plt.plot(df["watch"], df["new"])
plt.show()

可以去掉 27 号的数据:
clean_df =

本文介绍了作者如何利用机器学习,通过每日新增确诊和医学观察人数的关系,预测疫情新增确诊数。采用两种方案,一种是直接用线性回归模型,另一种结合时间序列预测医学观察数后再预测新增确诊数,最终预测明日新增确诊为2997人,仅供参考。
最低0.47元/天 解锁文章
920

被折叠的 条评论
为什么被折叠?



