2021华中杯 B 题:题目+数据+代码
本人专挑数据挖掘、机器学习和 NLP 类型的题目做,有兴趣也可以逛逛我的数据挖掘竞赛专栏。
本人不会回访,不互关,不互吹,以及谢绝诸如此类事
思路
其实这个比赛可以总结为一个问题,第二个问题只是在第一个问题的基础上的应用而已。而解决第1个问题的关键就在于构建一个机器学习模型,从而能够根据两个非结构化的文本来输出,两者之间是否重复。说到底就是一个监督学习的问题。
要解决这个监督学习问题,首先就要将非结构化的文本转换为结构化的,类似于表格或者向量的数据。为了解决这个问题,本文将英语文本进行拆分,停用词过滤,提取词根,在采用词袋模型配合TF-IDF方法,最终将非结构化的英语文本转换为一个向量。
之后将附件2,与处理过后的附件一进行合并,从而获得用以机器学习的数据集。考虑到直接合并产生的数据及占用的空间非常大,所以本文在进行合并操作的时候进行了适当的筛选。
然后由于重复的数据比起非重复的数据,数量上差距太大ÿ