尊敬的读者您好:笔者很高兴自己的文章能被阅读,但原创与编辑均不易,所以转载请必须注明本文出处并附上本文地址超链接以及博主博客地址:https://blog.csdn.net/vensmallzeng。若觉得本文对您有益处还请帮忙点个赞鼓励一下,笔者在此感谢每一位读者,如需联系笔者,请记下邮箱:zengzenghe@gmail.com,谢谢合作!
笔者最近主要在研究酒店点评类工作,主要包括内容智能发现、点评文本分类、用户关注点挖掘以及正负向点评可视化等等。今天主要讲一下,对于”酒店正负向点评可视化“,笔者是如何实践的。
1、本次实践目标与任务
① 看大盘的用户点评最关注哪些方向?
② 在这些方向中,用户具体关注哪些点?
2、先梳理一下主要流程
点评文本获取 > 文本预处理 > 文本分类/正负向识别 > 利用词云进行展示
3、
① 看大盘的用户点评最关注哪些方向?
a. 点评文本获取
大盘用户点评量级很大,与业务方沟通后只取近一年
b. 文本预处理
繁体字转换、敏感词汇剔除、过滤特殊字符、去除全部标点和空格以及文本纠错等
c. 文本分类
考虑到是看大盘用户最关注哪些方向,因此该步采用的是文本分类方式,获取了点评对应的类别,另外此处不涉及正负向识别。
d. 利用词云进行展示
采用WordCloud库,并借助generate方法对类别关键词生成词云。
② 在这些方向中,用户具体有很多,这里挑两个比较有意思的方向看看,比如购物和景观方向。
a. 点评文本获取
获取购物和景观类别的用户点评。
b. 文本预处理
繁体字转换、敏感词汇剔除、过滤特殊字符、去除全部标点和空格以及文本纠错等
c. 正负向识别
考虑到景观类的点评量很多,该步采用的是关键词抽取方式以获取词列表。同时购物类的点评量不多,该步直接采用分词方式以获取词列表。然后将每个词用情感模型(SnowNLP)进行情感识别,两头各设一个阈值并将满足条件的词分别放入正向词表和负向词表。
d. 利用词云进行展示
采用WordCloud库,并借助generate方法对正负向此列表生成词云。
景观正向
景观负向
购物正向
购物负向
日积月累,与君共进,增增小结,未完待续。