R语言 生成DocumentTermMatrix矩阵报错:Error in nchar(Terms(x), type = "chars") : invalid multibyte string

前段时间利用R语言做文本主题分析时,想要生成DTM矩阵,遇到了如下错误

报上述错误的R语言代码如下

samgov.segmentText <- read.csv('samgov_segment.csv', header = TRUE, fill = TRUE, stringsAsFactors = F)
d.corpus <- Corpus(VectorSource(samgov.segmentText$x),readerControl = list(language = "UTF-8"))
d.corpus <- tm_map(d.corpus, removeWords, stopwordsCN())
ctrl <- list(removePunctuation = TRUE, removeNumbers= TRUE, wordLengths = c(2, Inf),weighting = weightTf, encoding = "UTF-8")
d.dtm <- DocumentTermMatrix(d.corpus,control = ctrl)

我尝试了网上提供的一些方法,推荐最多的就是设置语言,如

先设置Sys.setlocale(locale="English"),再执行以上代码,后设回Sys.setlocale(locale="Chinese (Simplified)_People's Republic of China.936") 等方法,可并不奏效。

后来又查了很多资料,终于在知乎[1]上找到了解决问题的有效方法  (*^▽^*)

解决方法如下

加一句 m <- enc2utf8(samgov.segmentText$x)

R语言代码如下

samgov.segmentText <- read.csv('samgov_segment.csv', header = TRUE, fill = TRUE, stringsAsFactors = F)
m <- enc2utf8(samgov.segmentText$x)
d.corpus <- Corpus(VectorSource(m),readerControl = list(language = "UTF-8"))
d.corpus <- tm_map(d.corpus, removeWords, stopwordsCN())
ctrl <- list(removePunctuation = TRUE, removeNumbers= TRUE, wordLengths = c(2, Inf),weighting = weightTf, encoding = "UTF-8")
d.dtm <- DocumentTermMatrix(d.corpus,control = ctrl)

运行结果为

 

DTM(DocumentTermMatrix)矩阵:

           该矩阵也称为文档-词项矩阵,该矩阵的行代表文档,列代表词汇,矩阵元素即为文档中某一词汇出现的次数。

维基百科[2]解释如下

对于DTM矩阵在R语言中可以使用tm包提供的函数DocumentTermMatrix来获取

 

参考:

[1] 知乎(具体链接找不到了T_T,但是非常感谢给出方法的童鞋)

[2] https://en.wikipedia.org/wiki/Document-term_matrix

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值