第九届“泰迪杯”数据挖掘挑战赛C题-建模思路参考

Wency(王斯-CUEB)

已于 2022-06-08 19:06:53 修改

阅读量9.3k

点赞数 22

分类专栏：机器学习文章标签：数据挖掘机器学习

于 2021-04-29 22:18:46 首次发布

本文链接：https://blog.csdn.net/weixin_43213884/article/details/116277452

版权

机器学习专栏收录该内容

47 篇文章 15 订阅

订阅专栏

明白甲方要什么

• 1.吸引顾客，稳定客源
• 2.发现竞争优势
• 3.游客满意度以及影响因素

这三者的关系

• 1是最终目的，是核心
• 23是1的路径研究
• 2与3先导

我们有什么？

项目	Value
2个附件	景区和酒店的评论数据（示例数据和比赛数据）；景区和酒店的评分样表；关键词样表
1个C题详细说明	__

要解决的问题？

• 1景区及酒店印象分析
• 2景区及酒店综合评价
• 3网评文本的有效性分析
• 4景区及酒店的特色分析

1景区及酒店印象分析

• 初步构思
关键词抽取技术实现关键词获取，并通过统计关键词的词频大小获取评论焦点的热度，具体挖掘流程如下所示。首先基于词法分析做评论的分词和词条的词性标注，文本过滤筛选符合关键词搜索域的词条，比如，名词、动词、形容词等，接着基于关键词抽取技术抽取关键词，最后，对关键词做词频统计并基于词云图展示评论热点评论焦点。
在这里插入图片描述
我的其他NPL文章参考【传送门1】【传送门2】

2景区及酒店综合评价

• 拿手菜---------初步构思
建立综合评价体系
题目已经给出了要求从服务、位置、设施、卫生、性价比五个维度建立指标体系

用独热编码

通多对文本词的训练，将每个词都映射到比较短、稠密度高的向量上来。所有的词构成一个向量空间，通过统计学的方法来研究词之间的关系。
把原本的词向量映射到这个相对低维空间的过程就称为词嵌入（Word Embedding）

达到的效果

景区名称	总得分	服务得分
A01	4.3	…
A02	4.3	…
A03	1.3	…
…	…	…
这里出来的是降维后的独热编码

还可以通过一些综合评价方法来做
常见的 熵权法+Topsis结合、层次分析法等等
难一点可以用决策表属性约简等方法

• 从MSE
角度反映对模型进行评价——exm?

3网评文本的有效性分析

初步感觉是数据清洗，但这里好像是做一个关于垃圾评论的筛选、删除的模型。
就比如我们逛淘宝的时候，淘宝社区会自动帮我屏蔽掉一些无用的评论，给到消费者有效评论

主要涉及：文本去重 这里可以基于文本之间的相似度计算，包括编辑距离去重，simhash算法去重等，但是也会去除一些相近的表达，可能会误删。推荐使用比较删除法

4景区及酒店的特色分析

感觉好像是有点像用户画像（Profile）一样
将景点和酒店按高中低三个层次
以前做过，感觉上可以用基于高斯云理论模型的K-means聚类方法。当然做用户画像的方法有很多种，供选择的也有很多【传送门】

但是！这里有感觉有点多余了？
前面不是有综合评价模型？是否可以取综合得分，按照等级5分划分为三个等级？按照不同等级，分别对5个维度进行衡量，从而得到不同等级的特色？下对策建议等。。。

疑惑点

这个评论时间没想到怎么用？
具体的算法还没有落实到实处，只是具体有一了一个构思

欢迎留言交流！一起进步

Wency(王斯-CUEB)

关注

22
点赞
踩
110

收藏

觉得还不错? 一键收藏
打赏
27
评论
第九届“泰迪杯”数据挖掘挑战赛C题-建模思路参考

明白甲方要什么• 1.吸引顾客，稳定客源• 2.发现竞争优势• 3.游客满意度以及影响因素这三者的关系• 1是最终目的，是核心• 23是1的路径研究• 2与3先导我们有什么？项目Value2个附件景区和酒店的评论数据（示例数据和比赛数据）；景区和酒店的评分样表；关键词样表1个C题详细说明__要解决的问题？• 1景区及酒店印象分析• 2景区及酒店综合评价• 3网评文本的有效性分析• 4景区及酒店的特色分析1景区及酒店印象分析• 初步构思关
复制链接

扫一扫