R文本挖掘之tm包

最新推荐文章于 2024-07-24 20:00:03 发布

Mrrunsen

最新推荐文章于 2024-07-24 20:00:03 发布

阅读量817

点赞数

分类专栏： R语言大学作业文章标签： r语言

本文链接：https://blog.csdn.net/Mrrunsen/article/details/123106134

版权

1394 篇文章 6119 订阅 ¥9.90 ¥99.00

订阅专栏

tm包是R文本挖掘方面不可不知也不可不用的一个package。它提供了文本挖掘中的综合处理功能。如：数据载入，语料库处理，数据预处理，元数据管理以及建立“文档-词条”矩阵。

下面，即从tm包提供的各项功能函数的探索出发，一起开始我们的文本挖掘奇幻之旅。

首先，运行下面的几行代码，即可看到介绍tm包的小品文：Introduction to the tm Package:Text Mining in R（https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf）.

install.packages("tm")

library(tm)

vignette("tm")

载入数据的格式要求

tm包支持多种格式的数据。用getreaders()函数可以获得tm包支持的数据文件格式。

library(tm)

## Loading required package: NLP

getReaders()

##  [1] "readDOC"                 "readPDF"                
##  [3] "readPlain"               "readRCV1"               
##  [5] "readRCV1asPlain"

了解本专栏

关注