GoDaddy时序预测
预测美国各地的小微企业活动,以美国各县微型企业的密度来衡量。小微企业通常太小或太新,无法出现在传统经济数据源中,但微型企业活动可能与其他普遍感兴趣的经济指标相关。
数据集分析
- train.csv:训练集;
- test.csv:测试集;
- revealed_test.csv:公开排行榜只会使用最近一个月的数据,任何早于该数据的测试集数据都将发布在 revealed_test.csv;
- census_starter.csv:国人口普查局美国社区调查数据
此外赛题是鼓励使用外部数据集,因此可以考虑使用外部数据。当然也需要预测经济未来的发展:
- 地图数据,经纬度信息;
- 外部经济指标,宏观经济;
- 人口流量信息。
(1) train.csv
- row_id
- cfips - 使用联邦信息处理系统的每个县的唯一标识符。前两位数字对应州FIPS代码,后面三位代表县。
- state_name
- first_day_of_month
- microbusiness_density - 在给定的县,每100个18岁以上的人拥有微型企业。这是目标变量。由于美国人口普查局每年提供基本人口数据,用于计算人口密度的人口数据滞后了两年。2021年的密度数据是根据2019年的人口数据等计算出来的。
- active - 本县微型企业的原始数据。
(2) sample_submission.csv 在整个比赛期间保持不变。
- row_id
- microbusiness_density 目标变量
(3) census_starter.csv 来自人口普查局美国社区调查(ACS)的有用专栏的例子
- pct_bb_[year] - 该县接入任何类型宽带的家庭比例
- cfips
- pct_college_[year] - 25岁以上有本科学历的比例
- pct_foreign_born_[year] - 美国以外出生的比例
- pct_it_workers_[year] - it工作者比例
- median_hh_inc_[year] - 该县家庭收入的中位数