2020泰迪杯C题解题流程

最新推荐文章于 2024-06-20 16:16:59 发布

置顶

李烟云

最新推荐文章于 2024-06-20 16:16:59 发布

阅读量7.2k

点赞数 18

分类专栏：笔记文章标签：聚类数据挖掘数学建模卷积神经网络自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/C_P_J_M/article/details/104969213

版权

本文介绍了泰迪杯C题的解题流程，包括对留言进行分类的步骤，如数据预处理、Baseline模型（朴素贝叶斯、SVM、多层感知机）和CNN神经网络模型。在热点挖掘部分，文章讨论了K-means聚类、LDA主题建模以及热度评价指标的构建，旨在挖掘特定地点和人群的热点问题。

摘要由CSDN通过智能技术生成

注：本文为赛前所写，仅队内提供大致思路，和实际的解题流程有一定出入，仅供参考，有一些错误，笔者并没有更正（主要是没空），如想深入交流请私信。

1.对留言进行分类

1.1对数据进行分析。

观察数据集规模，是否有空值，是否重复记录
留言的长度，最大最小值和极差。可绘制词数直方图，确定padding长度。
有多少个一级分类，涉及到多少种分类
未登陆词有哪些，关键是地名

1.2 数据预处理

整体数据集去重复
对回复文本去除数字标点符号去停用词，并进行分词处理
建立词索引词典，将词语id表示
简单地词频向量化，每条回复用一个词频向量表示 $X_{i}$ ，一维稀疏向量。
使用word2vec词向量表示，每个词向量的维数为k，每条回复中有n个词，每条回复用一个矩阵表示 $R_{i}$ , $R_{i}$ 是一个 $\times n$ 的矩阵
为每一个标签进行量化。或者onehot化

1.3 Baseline模型

使用朴素贝叶斯训练一个多分类模型，输入使用词频向量（经过tf-idf特征提取），使用测试集测试，计算F-score作为baseline
或者SVM，或者多层感知机，在此基础上可以使用组合方法提高准确率。

1.4 CNN神经网络模型

首先使用语料库（笔者做完之后发现使用词向量反而准确率降低了，原因可能是使用的维基百科语料库中的语料和训练数据差异太大，因此可以使用tensorflow 中embedding层自行训练）训练出word2vec模型，把每一个词用向量表示出来。假设用零向量填充，得到一个回复矩阵。
开始使用CNN训练多分类模型，计算F-score。调整参数，词向量的维度、卷积核大小（必须和词向量的维度匹配，只能一个方向移动）、batch_size、卷积层和池化层的层数、激活函数、优化器选择、正则化处理。

2.热点挖掘

2.1问题目标

最低0.47元/天解锁文章

关注

18
点赞
踩
56

收藏

觉得还不错? 一键收藏
打赏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

李烟云 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。