今天我们看下文本挖掘在R语言中是如何被实现。文本挖掘作为自然语言处理的一个分支,主要目的是一个抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。本次主要给大家介绍下tm包的使用。首先看下包的安装:
install.packages(“tm”)
install.packages(“filehash”)
首先看下此包中主要的参数render取值的范围:
接下来看下source所允许的读取方式:DataframeSource, DirSource, URISource, VectorSource,和 XMLSource。其输入格式:URISource(x, encoding ="", mode = "text")。其中mode可以是text,binary。或者是空,那样就是只获取url不读取其中的内容。
接下来就是构建语料库,语料库的构建需要整合上面的两个函数,有如下四种语料库的构建:
1. SimpleCorpus(x, control = list(language= "en"))。这个语料库的构建是最简单将DataframeSource,DirSource 和VectorSource资源进行读取并构建在内存中的语料库形式。没有render参数的引入
2. VCorpus(x, readerControl = list(reader =reader(x), languag