2021华中杯 B 题

最新推荐文章于 2024-04-19 14:44:48 发布

zhuo木鸟

最新推荐文章于 2024-04-19 14:44:48 发布

阅读量6k

点赞数 25

分类专栏：数据挖掘竞赛文章标签：华中杯 B题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42141390/article/details/116327701

版权

数据挖掘竞赛专栏收录该内容

25 篇文章 15 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了华中杯B题的解决思路，涉及非结构化文本转结构化数据，如停用词过滤、TF-IDF建模，以及处理类别不均衡问题。通过逻辑回归模型，判断问题是否相似，得到TopK相似问题列表。文章提供了数据预处理、特征过滤和模型训练等关键步骤。

摘要由CSDN通过智能技术生成

2021华中杯 B 题：题目+数据+代码

思路
非结构化文本→结构化表格（英文）
生成用于机器学习的数据集
逻辑回归模型——判断两问题是否相似
TopK 与得分 R
代码与提问

本人专挑数据挖掘、机器学习和 NLP 类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。

本人不会回访，不互关，不互吹，以及谢绝诸如此类事

赛题官网：http://www.hzbmmc.com/

思路

其实这个比赛可以总结为一个问题，第二个问题只是在第一个问题的基础上的应用而已。而解决第1个问题的关键就在于构建一个机器学习模型，从而能够根据两个非结构化的文本来输出，两者之间是否重复。说到底就是一个监督学习的问题。

要解决这个监督学习问题，首先就要将非结构化的文本转换为结构化的，类似于表格或者向量的数据。为了解决这个问题，本文将英语文本进行拆分，停用词过滤，提取词根，在采用词袋模型配合TF-IDF方法，最终将非结构化的英语文本转换为一个向量。

之后将附件2，与处理过后的附件一进行合并，从而获得用以机器学习的数据集。考虑到直接合并产生的数据及占用的空间非常大，所以本文在进行合并操作的时候进行了适当的筛选。

然后由于重复的数据比起非重复的数据，数量上差距太大ÿ

了解本专栏

超级会员免费看

关注

25
点赞
踩
37

收藏

觉得还不错? 一键收藏
打赏
61
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 61

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zhuo木鸟 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。