前言
- 对文本的情感分析采用了两种思路——文本分类和文本聚类
有监督的学习 | 无监督的学习 |
---|---|
训练集包括输入和由人工标注的输出(x,y) | 其训练集没有人为标注的输出(x) |
分类(classify) | 聚类(cluster) |
- 测试文本(语料)来自于nltk库的movie_reviews语料库,其根据其倾向( n e g / p o s neg/pos neg/pos)将txt分为了两个文件夹
- 如果你愿意,也可以引入自己的语料库/文本,自己打标签
戳这里 ---->《NLTK载入自己的语料库》 - nltk提供的影评文本是自带预处理的,如果你想使用自己的语料库/文本,可能会遇到分词的麻烦。这篇短文可以让你快速入门分词,并轻易地用两行代码实现它:
戳这里 ---->《一篇文章入门分词(Tokenization)》 - 老生常谈,库的安装问题:
戳这里 ---->《Python安装第三方库的终极解决方法》
戳这里 ---->《PyCharm无法找到pip3安装的第三方库》
正文
《【文本分类】基于三种分类器实现影评的情感分析(朴素贝叶斯,最大熵,决策树)》
《【文本分类】基于两种分类器实现影评的情感分析(SVM,KNN)》
《【文本聚类】一片文章弄懂三种聚类算法(K-Means,Agglomerative,DBSCAN)》
《【文本聚类】三种聚类算法实现影评的情感分析(K-Means,Agglomerative,DBSCAN)》
后记
- 其他问题,点这里 ------->《百度·百科》
- 科班的,非科班的,尽在这里的分类专栏中 >_< -------> 丧心病狂Loli控的BLOG