R语言tm包中的TermDocumentMatrix函数生成中文词语矩阵含有\n

最新推荐文章于 2024-05-06 16:57:08 发布

faith默默

最新推荐文章于 2024-05-06 16:57:08 发布

阅读量6.7k

点赞数

分类专栏： R 文章标签： r语言

本文链接：https://blog.csdn.net/faith_mo_blog/article/details/51769391

版权

R 专栏收录该内容

50 篇文章 4 订阅

订阅专栏

问题产生原因是新版本R的scan函数读取utf8格式数据有时会添加\n，解决办法是在执行TermDocumentMatrix前，调用Sys.setlocale(locale=”English”)，之后再设定回去，Sys.setlocale(locale=”Chinese (Simplified)_People’s Republic of China.936”)，local设置通过函数sessionInfo()获得。

txt<-Corpus(VectorSource(segmentCN(Diy_dict,returnType = "tm")),readerControl = list(language = "UTF-8"))
Sys.setlocale(locale="English")
tdm<-DocumentTermMatrix(txt)
df_dtm2<-as.data.frame(inspect(tdm))
Sys.setlocale(locale="Chinese (Simplified)_People's Republic of China.936")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

faith默默

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
R语言tm包中的TermDocumentMatrix函数生成中文词语矩阵含有\n

问题产生原因是新版本R的scan函数读取utf8格式数据有时会添加\n，解决办法是在执行TermDocumentMatrix前，调用Sys.setlocale(locale=”English”)，之后再设定回去，Sys.setlocale(locale=”Chinese (Simplified)_People’s Republic of China.936”)，local设置通过函数sessionI
复制链接

扫一扫