1、基本文本处理技能 (1)、分词的概念 分词的正向最大分词的逆向最大分词的双向最大匹配法 (2)、词、字符频率统计 可使用python的collections.Counter模块,也可以用自己找到的其他更好用的库 2、语言模型 (1)、unigram、bigram、trigram概念 (2)、unigram、bigram频率统计 3、文本矩阵化 要求采用词袋模型且是词级别的矩阵化 分词(结巴分词)、去停用词、构造词表。每篇文档的向量化。 4、结巴分词介绍 https://github.com/fxsjy/jieba