机器学习实战:意大利Covid-19病毒感染数学模型及预测

作者:Gianluca Malato

deephub翻译组:刘欣然

当今世界正在与一个新的敌人作斗争,那就是Covid-19病毒。

该病毒自首次在中国出现以来,在世界范围内迅速传播。不幸的是,意大利的Covid-19感染人数是欧洲最高的,为19人。我们是西方世界第一个面对这个新敌人的国家,我们每天都在与这种病毒带来的经济和社会影响作斗争。

在本文中,我将用Python向您展示感染增长的简单数学分析和两个模型,以更好地理解感染的演变。

数据收集(Data collection)

意大利民防部门每天都会更新感染者的累积数据。这些数据在GitHub上作为开放数据公开在Github这里:

https://raw.githubusercontent.com/pcm-dpc/COVID-19/master/dati-andamento-nazionale/dpc-covid19-ita-andamento-nazionale.csv
我的目标是创建迄今为止受感染人数(即实际感染人数加上已感染人数)的时间序列模型。这些模型具有参数,这些参数将通过曲线拟合进行估算。

我们用Python来做。

首先,让我们导入一些库。

importpandas as pd
importnumpy as np
from datetime import datetime,timedelta
from sklearn.metrics import mean_squared_error
from scipy.optimize import curve_fit
from scipy.optimize import fsolve
import matplotlib.pyplot as plt
%matplotlib inline

现在,让我们看一下原始数据。

url = https://raw.githubusercontent.com/pcm-dpc/COVID-19/master/dati-andamento-nazionale/dpc-covid19-ita-andamento-nazionale.csv
df =pd.read_csv(url)

内容图片
我们需要的列是' totale_casi ',它包含到目前为止的累计感染人数。

这是原始数据。现在,让我们为分析做准备。

数据准备(Data preparation)

首先,我们需要将日期改为数字。我们将从一月一日起开始算。

df =df.loc[:,['data','totale_casi']]
FMT ='%Y-%m-%d %H:%M:%S'
date =df['data']
df['data']= date.map(lambda x : (datetime.strptime(x, FMT) -datetime.strptime("2020-01-01 00:00:00", FMT)).days  )

现在,我们可以分析要参加测试的两个模型,分别是逻辑函数(logistic function)和指数函数(exponential function)。

每个模型都有三个参数,这些参数将通过对历史数据进行曲线拟合计算来估计。

logistic模型(The logistic model)

logistic模型被广泛用于描述人口的增长。感染可以被描述为病原体数量的增长,因此使用logistic模型似乎是合理的。

这个公式在数据科学家中非常有名,因为它被用于逻辑回归分类器,并且是神经网络的一个激活函数。

logistic函数最一般的表达式为:

在这个公式中,我们有变量x(它是时间)和三个参数:a,b,c。

•a为感染速度
•b为感染发生最多的一天
•c是在感染结束时记录的感染者总数

在高时间值时,被感染的人数越来越接近c值,也就是我们说感染已经结束的时间点。这个函数在b点也有一个拐点,也就是一阶导数开始下降的点(即感染开始减弱并下降的峰值)。

让我们在Python中定义模型:

def logistic_model(x,a,b,c):
    return c/(1+np.exp(-(x-b)/a))

我们可以使用scipy库中的curve_fit函数从原始数据开始估计参数值和错误。

x =list(df.iloc[:,0])
y =list(df.iloc[:,1])fit = curve_fit(logistic_model,x,y,p0=[2,100,20000])

这里是一些值:

·       a: 3.54
·       b: 68.00
·       c: 15968.38

该函数也返回协方差矩阵,其对角值是参数的方差。取它们的平方根,我们就能计算出标准误差。

errors= [np.sqrt(fit[1][i][i]) for i in [0,1,2]]
·       a的标准误差:0.24
·       b的标准误差:1.53
·       c的标准误差:4174.69

这些数字给了我们许多有用的见解。

预计感染人数在感染结束时为15968+/-4174。

感染高峰预计在2020年3月9日左右。

预期的感染结束日期可以计算为受感染者累计计数四舍五入约等于到最接近整数的c参数的那一天。

我们可以使用scipy的fsolve函数来计算出定义感染结束日的方程的根。

sol =int(fsolve(lambda x : logistic_model(x,a,b,c) - int(c),b))

求解出来时间是2020年4月15日。

指数模型(Exponential model)

logistic模型描述了未来将会停止的感染增长,而指数模型描述了不可阻挡的感染增长。例如,如果一个病人每天感染2个病人,1天后我们会有2个感染,2天后4个,3天后8个,等等。

最通用的指数函数是:

变量x是时间,我们仍然有参数a, b, c,但是它的意义不同于logistic函数参数。

让我们在Python中定义这个函数,并执行与logistic增长相同的曲线拟合过程。

def exponential_model(x,a,b,c):

    return a*np.exp(b*(x-c))exp_fit =curve_fit(exponential_model,x,y,p0=[1,1,1])

参数及其标准差为:

·       a: 0.0019 +/- 64.6796
·       b: 0.2278 +/- 0.0073
·       c: 0.50 +/- 144254.77

画图

我们现在有了所有必要的数据来可视化我们的结果。

pred_x= list(range(max(x),sol))
plt.rcParams['figure.figsize']= [7, 7]
plt.rc('font',size=14)

## Realdata
plt.scatter(x,y,label="Real data",color="red")
#Predicted logistic curve
plt.plot(x+pred_x,[logistic_model(i,fit[0][0],fit[0][1],fit[0][2]) for i inx+pred_x], label="Logistic model" )
#Predicted exponential curve
plt.plot(x+pred_x,[exponential_model(i,exp_fit[0][0],exp_fit[0][1],exp_fit[0][2])for i in x+pred_x], label="Exponential model" )
plt.legend()
plt.xlabel("Days since 1 January 2020")
plt.ylabel("Total number of infected people")
plt.ylim((min(y)*0.9,c*1.1))plt.show()

这两条理论曲线似乎都很接近实验趋势。哪一个更好?让我们看一下残差(residuals.)。

残差分析

残差是指各实验点与相应理论点的差值。我们可以通过分析两种模型的残差来验证最佳拟合曲线。在第一次近似中,理论和实验数据的均方误差越小,拟合越好。

y_pred_logistic=[logistic_model(i,fit[0][0],fit[0][1],fit[0][2])
for iin x]y_pred_exp = [exponential_model(i,exp_fit[0][0], exp_fit[0][1], exp_fit[0][2]) for iin  x]
mean_squared_error(y,y_pred_logistic)
mean_squared_error(y,y_pred_exp)

Logistic模型MSE(均方误差):8254.07

指数模型MSE: 16219.82

哪个是正确的模型?

残差分析似乎指向逻辑模型。很可能是因为感染应该会在将来的某一天结束;即使每个人都会被感染,他们也会适当地发展出免疫防御措施以避免再次感染。只要病毒没有发生太多变异(例如,流感病毒),这就是正确的模型。

但是有些事情仍然让我担心。自感染开始以来,我每天都在拟合logistic曲线,而且每天都有不同的参数值。感染的人数最终会增加,最大感染日通常是当天或第二天(与该参数的1天标准误差是一致的)。

这就是为什么我认为,尽管逻辑模型似乎是最合理的模型,但是曲线的形状可能会由于新的感染热点,政府约束感染的行动措施等外在影响而发生变化。

因此,我认为这个模型的预测只有在感染高峰期之后的几周内才会开始有用。

原文地址:https://imba.deephub.ai/p/cced87c064f711ea90cd05de3860c663

 

weixin

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 机器学习实战:基于scikit-learn和tensorflow是一本介绍机器学习算法和实现的书籍。其中,scikit-learn是一个Python的机器学习库,提供了许多经典的机器学习算法和工具,如分类、回归、聚类、降维等。而tensorflow则是一个由Google开发的深度学习框架,可以用于构建神经网络、卷积神经网络、循环神经网络等深度学习型。本书通过实例演示,让读者了解机器学习的基本概念和方法,并学会如何使用scikit-learn和tensorflow实现机器学习算法。 ### 回答2: 机器学习实战:基于scikit-learn和tensorflow是一本非常实用的机器学习实战教程,对入门和进阶学习者都很友好。 首先,这本书用通俗易懂的语言介绍了机器学习的基本概念,如监督学习、非监督学习、聚类、分类等。随后,它详细解释了scikit-learn和tensorflow的基本原理,这是非常重要的,因为这两个框架是用Python编程实现机器学习所必需的。书中还提供了一些实际案例的例子,使读者能够亲身体验机器学习算法的工作原理和实际应用。 然后,作者深入讲解了各种机器学习算法,如朴素贝叶斯、k-近邻、支持向量机、决策树和逻辑回归等。这样读者就能了解每个算法的优缺点,以及选择何种算法解决不同的问题。此外,本书还讲述了如何使用Python语言构建机器学习型,包括训练、测试和评估型的过程。 最后,基于深度学习,这本书提供了一些tensorflow的实例,如卷积神经网络(Convolutional Neural Networks)和循环神经网络(Recurrent Neural Networks),帮助用户更有效的解决复杂问题。 总之,机器学习实战:基于scikit-learn和tensorflow是一个非常有用的教程,旨在帮助学习者从入门到进阶有效地学习机器学习,并在实践中运用各种机器学习算法。它不仅可以增强学生的知识储备,而且能够为专业人士提供实际应用的实例。 ### 回答3: 机器学习实战:基于scikit-learn和tensorflow是一本由Aurélien Géron撰写的实用机器学习指南。书中介绍了机器学习的基础概念、算法以及如何在实际中应用这些算法。书中所使用的主要库包括scikit-learn和tensorflow。这两个库分别代表了传统的机器学习方法和深度学习方法。 书中首先介绍了机器学习的基础概念和流程,包括数据预处理、特征工程、型选择和评估等内容。然后详细介绍了常用的机器学习算法,包括线性回归、逻辑回归、决策树、随机森林、支持向量机、神经网络等。每个算法都配有清晰的代码实现和演示案例,让读者可以更好地理解算法的原理和应用场景。 在介绍完传统的机器学习算法后,书中又详细介绍了深度学习的基础概念和应用。深度学习已经成为目前最流行的机器学习方法之一,具有很强的表征能力和预测性能。书中介绍了如何使用tensorflow构建神经网络,包括前向传播、反向传播、dropout等技术。同时,书中还介绍了很多工具和技术,如keras、tensorboard、图像处理等,用于辅助深度学习的应用。 总体来说,机器学习实战:基于scikit-learn和tensorflow这本书对于入门机器学习的读者来说是很不错的选择。它非常详细地介绍了机器学习和深度学习的原理和应用,并提供了很多实际案例和代码实现,让读者可以更好地理解和掌握这些技术。同时,书中所使用的库也是相对比较流行的,在实际应用中具有较高的参考价值。如果你想学习机器学习和深度学习,这本书值得一读。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值