高传染性传染病的传播趋势预测

高传染性传染病的传播趋势预测

一 提交的数据的格式要求 (result_data)

Data to be Submitted by the Contestants (result_data)
选手需要预测后30天每天每个城市对应区域的新增感染人数,提供的文件格式为:城市ID,区域ID,日期,每日新增感染人数;“,”分割。选手提交结果文件命名为submission.csv,内容示例如下:
在这里插入图片描述

二 现有训练数据格式

针对赛题所构造的若干虚拟城市,构造传染病群体传播预测模型

根据该地区传染病的历史每日新增感染人数城市间迁徙指数网格人流量指数网格联系强度天气等数据,预测群体未来一段时间每日新增感染人数

赛题共涉及11个虚拟城市90天的感染情况每个城市有若干重点区域

初赛要求针对所提供的5个城市,利用每个城市各区域前45天的样本数据进行训练,预测每个城市各区域后30天每天的新增感染人数

复赛要求针对包含初赛城市在内的11个城市,利用每个城市各区域前60天的样本数据进行训练,预测每个城市各区域后30天每天的新增感染人数

训练集共包括5个城市,每个城市目录下的数据集总体说明:

1.各区域每天新增感染人数。文件名:infection.csv。提供前45天每天数据,文件格式为城市ID,区域ID,日期,新增感染人数;“,”分割。

2.城市间迁徙指数。文件名:migration.csv。提供45天每天数据。文件格式为迁徙日期,迁徙出发城市,迁徙到达城市,迁徙指数;“,”分割。

3.网格人流量指数。文件名:density.csv。提供45天内每周两天抽样数据,文件格式为日期,小时,网格中心点经度,网格中心点纬度,人流量指数;“,”分割。

4.网格关联强度。文件名:transfer.csv。城市内网格间关联强度数据,文件格式为小时,出发网格中心点经度,出发网格中心点纬度,到达网格中心点经度,到达网格中心点纬度,迁移强度;“,”分割。

5.网格归属区域。文件名:grid_attr.csv。城市内网格对应的归属区域ID,文件格式为网格中心点经度,网格中心点纬度,归属区域ID;“,”分割。

6.天气数据。文件名:weather.csv。提供45天每天数据,文件格式为日期,小时,气温,湿度,风向,风速,风力,天气;“,”分割。

文件数据示例详细说明:

1.infection.csv-各区域每天新增感染人数

在这里插入图片描述

2.migration.csv-城市间迁徙指数

在这里插入图片描述
3.density.csv-网格人流量指数
在这里插入图片描述

4.transfer.csv-网格关联强度

在这里插入图片描述
5.grid_attr.csv-网格归属区域

在这里插入图片描述
6.weather.csv-天气数据

在这里插入图片描述

三 复赛阶段 Playoff Stage

新增6个城市,训练集的城市数量从5增加到11;训练集的时间窗口从45天增加到60天;其他不变。

能不能创造出新的更具有区别度的数据

四 数据分析

本项目的目的与需求是预测后30天每天每个城市对应区域的新增感染人数
在这里插入图片描述

  • 新增感染人数有从0-47382,这么大的范围,作为一个分类问题较为困难,可以试做回归问题
  • A城市有117个区
  • B-29
  • C-134
  • D-74
  • E-33

二 先做二分类的数据重要性分析

先做二分类的数据重要性分析,把有感染和无感染分离,看其特征数据

  • 共有5个城市 , 387个区
  • 城市间迁徙指数 ------涉及 5个城市
  • 网格人流量指数+网格关联强度 -------涉及城市的各个区
  • 天气-------涉及整个城市
  • 最后预测的基本时间单位是—天
    也就是说二分类的基本信息应该在天以内
  • 同时空间上是具体到-----区
  • 综上就需要考虑到 某区内一天的特征量(特征属性–能代表某区一天的特征)

1 对于天气而言:
weather.csv-天气数据

在这里插入图片描述
一天的数据
在这里插入图片描述

先简化一下吧:

  • 剔除小时
  • 气温取平均值
  • 湿度取平均值
  • 其余独热

2 对于迁移指数而言:
migration.csv-城市间迁徙指数

在这里插入图片描述
在这里插入图片描述
主要要挑出和A城市每天有关的迁移指数,可以独热出四维

3 对于 网格人流量指数 而言:

density.csv-网格人流量指数
在这里插入图片描述
在这里插入图片描述
通过grid_attr.csv把在一天内的某个区内的人流量指数给统计出来

grid_attr.csv-网格归属区域

在这里插入图片描述

在这里插入图片描述

transfer.csv-网格关联强度

在这里插入图片描述
在这里插入图片描述
把经纬度确定到区

有个思路,可不可以先做二分类,在将感染的做回归预测

天气迁移指数网络人流量指数网格关联强度

输出的话不应该是一个,应该是所有特征量+结果(感染人数)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值