R文本挖掘-中文分词Rwordseg

本文介绍了在R中进行文本挖掘时如何处理语料库,特别是中文分词的重要步骤。通过使用`tm`包和`Rwordseg`包,详细讲解了语料库的创建、读取控制器、处理函数以及分词方法。同时,提到了安装字典以提高分词准确性,并提供了一个中文分词的代码示例。
摘要由CSDN通过智能技术生成

我们的数据分析工作,不仅仅有对数据的分析,还有对文字资料整合的统计分析。在进行词频统计之前,有一项必须要做的工作就是中文的分词。

语料库的处理

语料库
语料库是我们要分析的所有文档的集合
中文分词
将一个汉字序列切分成一个一个单独的词
停用词
数据处理的时候,自动过滤掉某些字或词,包括泛滥的词,例如web,
网站等,又如语气助词、副词、介词、连接词等,例如的,地,得。

R 中的 API(应用程序的接口)
tm包
安装 install.packages(“tm”)
读入语料库:
Corpus(x,readerControl)
x 语料库的数据源

  • DirSource 目录数据源
  • VectorSource 向量数据源

readerControl 语料库的读取控制器,是一个list

  • reader 文本为reader,pdf为readPDF等
  • language 文本语言,默认为”en”

语料库处理与中文分词
语料库处理函数:
tm_map(x,FUN)
x 语料库
FUN 处理函数

  • tolower 转成小写
  • stripWhitespace 移除空白字符
  • plainTextDocument处理HTML或者XML文档
  • segmentCN 中文分词函数,来自Rwordseg包
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值