第九届“泰迪杯”数据挖掘挑战赛C题-建模思路参考

明白甲方要什么

• 1.吸引顾客,稳定客源
• 2.发现竞争优势
• 3.游客满意度以及影响因素

这三者的关系

• 1是最终目的,是核心
• 23是1的路径研究
• 2与3先导

我们有什么?

项目Value
2个附件景区和酒店的评论 数据(示例数据和比赛数据);景区和酒店的评分样表;关键词样表
1个C题详细说明__

要解决的问题?

• 1景区及酒店印象分析
• 2景区及酒店综合评价
• 3网评文本的有效性分析
• 4景区及酒店的特色分析


1景区及酒店印象分析

初步构思
关键词抽取技术实现关键词获取,并通过统计关键词的词频大小获取评论焦点的热度,具体挖掘流程如下所示。首先基于词法分析做评论的分词和词条的词性标注,文本过滤筛选符合关键词搜索域的词条,比如,名词、动词、形容词等,接着基于关键词抽取技术抽取关键词,最后,对关键词做词频统计并基于词云图展示评论热点评论焦点。
在这里插入图片描述
我的其他NPL文章参考【传送门1】【传送门2


2景区及酒店综合评价

拿手菜---------初步构思
建立综合评价体系
题目已经给出了要求 从服务、位置、设施、卫生、性价比五个维度建立指标体系

用独热编码

通多对文本词的训练,将每个词都映射到比较短、稠密度高的向量上来。所有的词构成一个向量空间,通过统计学的方法来研究词之间的关系。
把原本的词向量映射到这个相对低维空间的过程就称为词嵌入(Word Embedding)

达到的效果

景区名称总得分服务得分位置得分设施得分卫生得分性价比得分
A014.3
A024.3
A031.3
这里出来的是降维后的独热编码

还可以通过一些综合评价方法来做
常见的 熵权法+Topsis结合、层次分析法等等
难一点可以用决策表属性约简等方法

• 从MSE
角度反映对模型进行评价——exm?

3网评文本的有效性分析

初步感觉是 数据清洗,但这里好像是 做一个关于垃圾评论的筛选、删除的模型。
就比如我们逛淘宝的时候,淘宝社区会自动帮我屏蔽掉一些无用的评论,给到消费者有效评论

主要涉及:文本去重 这里可以基于文本之间的相似度计算,包括编辑距离去重,simhash算法去重等,但是也会去除一些相近的表达,可能会误删。推荐使用比较删除法

4景区及酒店的特色分析

感觉好像是有点像用户画像(Profile)一样
将景点和酒店按高中低三个层次
以前做过,感觉上可以用基于高斯云理论模型的K-means聚类方法。当然做用户画像的方法有很多种,供选择的也有很多【传送门

但是!这里有感觉有点多余了?
前面不是有综合评价模型?是否可以取综合得分,按照等级5分划分为三个等级?按照不同等级,分别对5个维度进行衡量,从而得到不同等级的特色?下对策建议等。。。

疑惑点

这个评论时间没想到怎么用?
具体的算法还没有落实到实处,只是具体有一了一个构思

欢迎留言交流!一起进步

  • 22
    点赞
  • 110
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 27
    评论
评论 27
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wency(王斯-CUEB)

我不是要饭的

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值