估计时间序列过程
statsmodels的另一模型类是进行时间序列分析,包括自回归过程、卡尔曼滤波和其它态空间模型,和多元自回归模型。
用自回归结构和噪声来模拟一些时间序列数据
4)scikit-learn介绍
scikit-learn是一个广泛使用、用途多样的Python机器学习库。
它包含多种标准监督和非监督机器学习方法和模型选择和评估、数据转换、数据加载和模型持久化工具。
这些模型可以用于分类、聚合、预测和其它任务。
机器学习方面的学习和应用:scikit-learn和TensorFlow
在实际中,模型训练经常有许多额外的复杂因素。许多模型有可以调节的参数,
有些方法(比如交叉验证)可以用来进行参数调节,避免对训练数据过拟合。
这通常可以提高预测性或对新数据的健壮性。
交叉验证通过分割训练数据来模拟样本外预测。
基于模型的精度得分(比如均方差),可以对模型参数进行网格搜索。
有些模型,如logistic回归,有内置的交叉验证的估计类。
例如,logisticregressioncv类可以用一个参数指定网格搜索对模型的正则化参数C的粒度
要手动进行交叉验证,你可以使用cross_val_score帮助函数,它可以处理数据分割。
例如,要交叉验证我们的带有四个不重叠训练数据的模型,可以这样做: