2021美赛C题思路
只想看思路的直接翻到思路就行。
本人也是第一次参赛,记录留恋,交流指正。
赛前
第一次参加美赛,也没多少建模经历。寒假和队友一起线上自学了两个星期,感觉也是一场很宝贵的经历,自己也学到了挺多东西的,结交了两个有趣的灵魂。
我之前也做过深度学习、大数据之类的比赛;小文是计算机学院的,不学matlab,更擅长pytho;小刘是经管学院的,也懂一些数据分析。由于时间紧张,综合考虑下来,我们一开始就决定了做c题。
赛时
今年的c题出了图像,正是我想要的。但这些图像是真的乱,肯定不能直接丢到神经网络炼丹,主办方也说可以适当找其他数据(就是可以爬取图片的意思咯),还要经过一些处理才行。(不过你能不能练出来好结果没啥影响,评委不看你的附件、代码,所以说出你自己的想法,自行省略某些步骤)。图像分类不是最主要的,不做图像也不是不行。
其实最难的应该是确认有亚洲大黄蜂的数据只有14个,我猜这个应该就劝退了很多人。比赛之后我看过别人的思路,说时间序列啥的,不过该地区应该不止一个蜂巢吧,用时间序列的话至少你得是同一个蜂巢的数据吧(如果我没有理解错),才能预测这个蜂巢的动向。并且工蜂分布本来就是一个类似圆一样的区域,所以不可能精确到一个坐标点,而且时间分布也不均匀,工蜂一般在8月左右才活跃起来,不适合时间序列。
其实美赛在建模之前有一步是绝对不可以忽略的,那就是查找资料。首先你得找一下别人是怎么搞的吧,我看到一篇论文里用圆来表示了亚洲大黄蜂的分布范围,但是是根据气象来的,而且这个范围好像还挺大,是个世界地图。结合之前查到的工蜂分布在蜂巢范围8km,蜂后铸造新巢范围为30km,我们想到了k-means聚类,并用圆表示蜂巢分布。下面开始建模。
一、思路
这是我写的摘要的草稿的一部分,可以看出大体思路:
针对问题1,我们查找资料,发现工蜂一般分布在蜂巢8km以内,蜂后筑新巢不会超过30km。我们对每一年的数据进行K-means聚类分析,分类数从1开始增加,直到每一类点集的最小外接圆半径小于8km,则认为每一个类为一个蜂群,其质心为蜂巢位置。以蜂巢位置为圆心,38km为半径的圆即为该蜂群下一年的后代分布范围。
通过模型我们分析出该地区2019和2020年的蜂群分布情况,发现2019年有两个蜂群,其中一个蜂群在逐渐衰减,另一个蜂群规模在变大,并有向东南方向入侵的趋势。我们对今后的胡蜂分布进行了预测,认为若不加以制止,胡蜂最快能在20年内入侵美国全境。
针对问题2,我们创建了cnn图像分类模型和文本统计模型,用以检验报告的可信度。
我们对图像进行分类、转换、清洗、爬取、主体提取、图像增强等操作,得到训练集、评估集和测试集。将数据送入cnn模型训练了200轮,模型分类准确率达到了87.35%。
在’Lab comments’中专家会说明人们将什么误认为是大黄蜂,因此我们从确认不是亚洲大黄蜂的’Lab comments’中提取高频词,找到人们最容易误认为是亚洲大黄蜂的其他蜂种。我们专门建立了一个非胡蜂昆虫特征库,包含身长、颜色等特征,用于报告中关键特征的对比打分。通过统计,我们发现人们最容易将Golden digger wasp、Horntail sawfly等蜂种误认为是亚洲大黄蜂。
针对问题3,我们提出四个指标:1、图像综合评价指标,表示照片的可信度;2、文本综合评价指标,表示文本特征的拟合程度;3、区域对比评分,从坐标上反应报告为胡蜂的可信度;4、成本函数,根据以上三个指标对报告优先级进行综合判定。
针对问题4,我们对kmeans-circles模型、cnn图像分类模型和文本统计模型的特点进行了分析,并给出了模型的更新周期、更新方式和优化方案。
针对问题5,我们认为胡蜂是否能根除与当前巢穴数量和蜂群扩张能力有关。受生物学遗传和变异启发,我们建立了一个蜂后生育能力指标,该指标遗传于上一代蜂后并会发生变异,可反应蜂群扩张能力。综合巢穴数量与蜂群扩张能力,若综合指标低于某个阈值,我们便认为该地区胡蜂已经根灭。通过该模型,我们得出以下结论:2020年华盛顿地区胡蜂以2019年两倍的速度进行繁殖。若不加以制止,胡蜂数量每年以两倍左右的速度增长。
最后,我们总结了我们解决方案的优缺点,并将我们的见解传达给the Washington State Department of Agriculture,以帮助华盛顿州更高效的治理胡蜂。
关键词:k-means聚类分析、CNN图像分类、文本统计
二、结果
想看数据结果可以直接翻到最后面的备忘录查看。
问题一:
亚洲大黄蜂分布分析与预测:
问题二:
图像分类预测的亚洲大黄蜂
与已经确认的的亚洲大黄蜂分布区域进行对比发现有一个坐标很有可能是真的大黄蜂
词频统计
词库建立
这里的词库是非亚洲大黄蜂的词库,对应的我们找到他们的身长、颜色(也可转化为RGB三通道数字化)还有其他特征,即可实现文本特征对比打分
这里的昆虫对比图是纯手画的,tql
问题三:
综合评价体系的建立,实现优先调度
综合图像分类、特征库对比、区域对比建立评价体系即可。
问题四:
模型更新,说出三个模型的更新方法。比较简单。有优化的话也可以扯一些优化方案。
问题五:
大体思路见摘要。胡蜂是否能根除与当前巢穴数量和蜂群扩张能力有关。
我就建立了一个蜂后繁育能力的指标
备忘录的草稿:
主题: 胡蜂分布预测及胡蜂入侵控制策略
自2019年9月以来,华盛顿州已发生了几次确认的胡蜂目击事件,以及许多错误的目击事件。亚洲大黄蜂是世界上最大的黄蜂,也是最危险的昆虫之一,它带有很强的毒性,会对人们的安全造成威胁。并且其生性凶残,几个小时内就可以摧毁一个蜜蜂群落,如果不加以控制,对未来的粮食产量会造成严重影响,区域生态也会遭到巨大破坏。但大黄蜂通常栖息在地下巢穴,非常隐蔽,难以寻找,一年中只有7月和11月最活跃。并且大黄蜂的飞行速度能达到每小时32千米,因此搜捕大黄蜂并不容易。
我们的团队分析了给定的数据并构建了胡蜂分布预测模型,可以很好的对胡蜂分布区域进行预测。同时由于政府资源有限,需要对某些报告进行优先调查,为此我们构建了cnn图像分类模型和文本统计模型,并与胡蜂分布预测模型相结合,建立了综合评价体系,以实现人员的优先调度。
为了将胡蜂入侵程度量化,我们设立了一个假想指标,对胡蜂蜂后生育能力进行估计。我们综合胡蜂蜂巢数目和蜂后繁衍能力,建立了华盛顿州胡蜂繁衍能力指标,若该指标低于某个阈值,我们便认为该地区蜂后生育能力过低,已经无法维持蜂群扩张,该地区胡蜂即将灭绝。
结果:
在蜂群分布上,根据kmeans-circles模型处理的结果显示,华盛顿地区2019年黄蜂群落大致可分为两个群落。并且我们大致估计出第一个巢穴位置为(48.9931665,-122.72558475),巢穴密度为1,第二个巢穴位置为(49.149394,-123.943134),巢穴密度为4.
根据2020年的数据分析,我们发现上一年的第一个群落没有子孙群落,可能的原因为群落太小,没有被发现,或者该群落已经被消灭。第二个群落分裂为了三个子孙群落。第一个子孙群落的巢穴预测为(48.941553,-122.7030265),巢穴密度为2,第二个子孙群落的巢穴预测为(48.777534,-122.418612),巢穴密度为1,第三个子孙群落的巢穴预测为(49.022242,-122.6082285),巢穴密度为6。可知第二个群落的数量在快速增加,并开始向外扩张,扩张方向为向东南方扩张。
我们对2021年的胡蜂分布进行了预测,大致范围为以2020 年的三个巢穴为圆点,38km为半径的三个圆形区域。离圆点越近,越有可能找到胡蜂的新巢穴。
我们根据这两年的数据对之后更长的一段时期的胡蜂分布进行了预测,认为若不加以制止,胡蜂最快能在20年内入侵美国全境。
在蜂群入侵程度上,通过蜂群繁衍能力模型,我们发现2020年华盛顿地区胡蜂扩张非常快,近乎在以2019年两倍的速度进行繁殖。若不加以制止,胡蜂仍然以这样的速度成长,胡蜂数量每年将会以两倍的速度进行扩张,对人们的生活和生态环境将会造成巨大的破坏。
提案:
2021年胡蜂将在7-9月开始活跃起来,为了更高效的对胡蜂进行查杀,我们提出如下政策:
1、重点排查经纬度为(48.941553,-122.7030265)、(48.777534,-122.418612)、(49.022242,-122.6082285)三点附近的区域。我们预测的胡蜂分布范围是以三点为圆心,38km为半径的三个圆,在这三个区域我们可以先排除掉海洋等不可能区域,可以重点排查适宜胡蜂生存的地区,缩小排查范围。
2、可以使用我们的综合评价模型,综合图像分类、文本库特征对比、胡蜂分布区域对比,来实现人员的优先调度。
3、一旦有确认的胡蜂目击报告,便可以更新一次胡蜂分布模型,估计出胡蜂的蜂巢位置及规模大小。
4、根据我们的模型,计算出每一年的胡蜂繁衍能力指标E。当连续三年未再发现胡蜂,并且E<0.2,我们可以认为该地区的大黄蜂已经被根除。
5、胡蜂有向东南方向扩张的趋势,需要注意东南方向的胡蜂入侵防治。
6、根据我们的预测,若不加以控制,胡蜂最快能在20年内入侵美国全境,胡蜂数量每年将会以两倍的速度进行扩张,因此需要加大胡蜂查杀的力度,投入更多人力、物力,防止造成更多的损失。