认识tm包
tm包是R文本挖掘方面不可不知也不可不用的一个package。它提供了文本挖掘中的综合处理功能。如:数据载入,语料库处理,数据预处理,元数据管理以及建立“文档-词条”矩阵。
下面,即从tm包提供的各项功能函数的探索出发,一起开始我们的文本挖掘奇幻之旅。
首先,运行下面的几行代码,即可看到介绍tm包的小品文:Introduction to the tm Package:Text Mining in R(https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf).
install.packages("tm")
library(tm)
vignette("tm")
tm包重要函数初探
数据载入及语料库创建
载入数据的格式要求
tm包支持多种格式的数据。用getreaders()函数可以获得tm包支持的数据文件格式。
library(tm)
## Loading required package: NLP
getReaders()
## [1] "readDOC" "readPDF"
## [3] "readPlain" "readRCV1"
## [5] "readRCV1asPlain"