用R语言生成DocumentTermMatrix(DTM)矩阵
在提取文本LDA时,需要先生成文档的DTM矩阵。对于DTM矩阵,维基百科上给出了详细的解释。有两个document分别名为D1,D2:也就是说DTM矩阵是每个Document中每个term(单词,或是词汇表vocab)出现的次数。R语言的tm包给出了直接求取dtm的接口library(SnowballC) library(NLP)library(tm) #
原创
2016-09-22 15:23:53 ·
18533 阅读 ·
0 评论