聚类、文本分类、倾向性分析

本文介绍了聚类、文本分类和倾向性分析的技术流程。在聚类中,涉及文本预处理、特征选择、文本表示及KMeans算法。分类流程与聚类相似,包括预处理、特征选择、文本表示和多种监督学习算法。倾向性分析则涵盖了基于情感词典和文本分类的方法,并解释了如何构建情感词典和计算模型。
摘要由CSDN通过智能技术生成

最近项目和话题检测、倾向性分析相关,涉及到聚类、文本分类、文本倾向性分析技术,决定形成系统说明并将代码开放出来,作为记录。

数据的话,由于和实验室项目相关,不好开放出来,可以使用搜狗的语料库(http://www.sogou.com/labs/dl/cs.html)。


先大概介绍一下框架,涉及到具体的各个模块,在各个具体的文章中说明:

聚类流程:

1、文本预处理,包括分词、去停用词、统计词频等(如果是英文文本的话,还有词干还原,如porter算法)

2、特征选择(这一步根据数据做选择,可以有,可以没有,如果没有的话,就是用整篇文章内容作为特征),常见的如:信息增益、开方检验、TF-IDF、互信息

3、文本表示,一般可以使用矢量空间模型(VSM),具体的特征值,按需要计算,比如TF-IDF等

4、由于聚类是一个无监督的方法,就没有训练过程了,直接使用聚类算法进行聚类,比如KMeans

5、聚类结果评价,常见的如:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值