2021 泰迪杯 C 思路

最新推荐文章于 2022-10-24 09:40:34 发布

zhuo木鸟

最新推荐文章于 2022-10-24 09:40:34 发布

阅读量4.1k

点赞数 12

分类专栏：数据挖掘竞赛文章标签：泰迪杯 C题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42141390/article/details/116422841

版权

数据挖掘竞赛专栏收录该内容

25 篇文章 15 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

希望大家能获得好成绩。

第一题

首先分词，分词本质上是一个序列标注问题，建议使用条件随机场。条件随机场可以用网络上开源的 SigHan05 的 MSR 分词语料库来训练。分词过后，当然还要删除停用词。删除停用词可以用双向匹配，即基于规则的词典匹配法。停用词字典的话，开源的有很多，这都不是问题。

另外要注意的问题是，英文怎么解决？我觉得只能手动翻译了，当然也可以不管，或者删除。

如何提取关键热词呢？有三个方法：

词频统计：缺点在于反复出现的词不一定是热词
TF-IDF：占用空间太大
TextRank：类似于 google 排行算法的 PageRank，把词看成节点，应该就能懂了。

然后，最重要的一点，就是结合上述的方法，最后提出热门词。

第二题

评价模型的训练，感觉其实是一个监督学习中的回归问题。但这个机器学习，数据集有些少，就 50 个。

如何解决呢？首先将景区下的所有评论，拼接成一个长文档，再采用分词和停用词过滤，再用词袋模型（如TF-IDF）将非结构化的文本，转换为结构化的向量。

了解本专栏

超级会员免费看

关注

12
点赞
踩
31

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zhuo木鸟 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。