我们的数据分析工作,不仅仅有对数据的分析,还有对文字资料整合的统计分析。在进行词频统计之前,有一项必须要做的工作就是中文的分词。
语料库的处理
语料库
语料库是我们要分析的所有文档的集合
中文分词
将一个汉字序列切分成一个一个单独的词
停用词
数据处理的时候,自动过滤掉某些字或词,包括泛滥的词,例如web,
网站等,又如语气助词、副词、介词、连接词等,例如的,地,得。
R 中的 API(应用程序的接口)
tm包
安装 install.packages(“tm”)
读入语料库:
Corpus(x,readerControl)
x 语料库的数据源
- DirSource 目录数据源
- VectorSource 向量数据源
readerControl 语料库的读取控制器,是一个list
- reader 文本为reader,pdf为readPDF等
- language 文本语言,默认为”en”
语料库处理与中文分词
语料库处理函数:
tm_map(x,FUN)
x 语料库
FUN 处理函数
- tolower 转成小写
- stripWhitespace 移除空白字符
- plainTextDocument处理HTML或者XML文档
- segmentCN 中文分词函数,来自Rwordseg包