文本挖掘学习笔记(三):文档相似度、文档分类和情感分析 全文基于《射雕英雄传》语料库,下面是读入数据的一个基于Pandas的通用操作框架。1.文档相似度计算两个词相似度的原理:简单的说,就是将每个词的向量在空间上进行余弦运算,当cos越接近0时候,两者越相似。词袋模型不考虑词条之间的相关性,因此无法用于计算词条相似度。分布式表达会考虑词条的上下文关联,因此能够提取出词条上下文中的相关性信息,而词条之间的相似度就可以直接利用此类信息加以计算。.........
文本挖掘学习笔记(一):文本分词和词云展示 注:学习笔记基于文彤老师文本挖掘的系列课程课程链接:https://study.163.com/course/courseMain.htm?courseId=1005124008&share=1&shareId=1146477588全文基于《射雕英雄传》语料库,下面是读入数据的一个基于Pandas的通用操作框架。读入为数据框import pandas as pd# 有的环境配置下read_table出错,也可用用read_csvraw = pd.read_table("金庸-射雕