文本挖掘是一项重要的数据分析技术,用于从大量文本数据中提取有用的信息和洞察。R语言提供了丰富的工具和包来支持文本挖掘任务,其中tm包(Text Mining)是其中之一。本文将详细介绍tm包的功能和用法,并提供相应的源代码。
- 安装和加载tm包
首先,我们需要安装tm包。在R控制台中执行以下命令来安装tm包:
install.packages("tm")
安装完成后,加载tm包:
library(tm)
- 创建文本语料库
在tm包中,文本数据存储在语料库(corpus)对象中。我们可以从多个来源创建语料库,包括文本文件、文件夹、数据框等。下面是几种常见的创建语料库的方法:
从文本文件创建语料库:
corpus <- Corpus(DirSource("path/to/directory"))
从数据框创建语料库:
corpus <- Corpus(Datafram