tm/wordcloud合并变形词

原创 2015年11月19日 11:07:29

在文本挖掘中,合并变形词的词频是很必要的。虽然步骤较简单,但很多人都没有注意。

下面比较一下合并跟不合并的差别:

library("tm")
library("wordcloud")
data(crude)
crude <- tm_map(crude, removePunctuation)
crude <- tm_map(crude, function(x) removeWords(x, stopwords()))
tdm <- TermDocumentMatrix(crude)
m <- as.matrix(tdm)
v <- sort(rowSums(m), decreasing = TRUE)
d <- data.frame(word = names(v), freq = v)
cls <- c("gray50", brewer.pal(8, "Dark2"), "orangeRed")
wordcloud(d$word, d$freq, scale = c(6, 0.5), color = cls, random.order = FALSE)
subfix <- c("s", "es", "ed", "ing", "y", "ive", "ic", "al", "ous", "ious", "ish",
    "able", "ible", "ize", "ise")
del <- 0
for (ss in subfix) {
    w1 <- d$word
    w2 <- paste0(w1, ss)
    sel <- w2 %in% w1
    pls <- w1 %in% w2
    if (sum(pls) > 0) {
        f1 <- d$freq
        f1[sel] <- f1[sel] + f1[pls]
        d$freq <- f1
        d <- d[!pls, ]
        del <- del + sum(pls)
    }
}
del
## [1] 104
wordcloud(d$word, d$freq, scale = c(6, 0.5), color = cls, random.order = FALSE)


可以看到合并后opec(欧佩克), market(市场), Kuwait(科威特)等词的重要性明显提高。

安装 SnowballC 软件包后也可以用 tm_map(x, stemDocument) 合并变形词,但效果很差,可以试试。



作者: ZGUANG@LZU

Created: 2015-11-19 四 11:00

Emacs 24.4.1 (Org mode 8.2.10)

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

文本分析常用R包的安装(Rweibo、wordcloud、tm、tmcn、Rwordseg、Rcharts、xlsx、XLConnect)

为了使用文本分析挖掘,必须要先安装一些R包,比如Rwordseg包常用于分词、tmcn用于词频统计、wordcloud用于绘制文字云。在R中,有些包是需要额外设置安装的,且设置起挺麻烦的,因此,以下总...

wordcloud词云

  • 2017年11月15日 16:09
  • 2.42MB
  • 下载

Python词云构建_wordcloud+jieba的使用

  • 2017年04月08日 23:45
  • 7.76MB
  • 下载

python——wordcloud生成中文词云

毕设中期答辩,想展示一下前期数据抓取和聚类的成果,感觉词云这种形式不错,于是简单学习了一下wordcloud。 首先是安装 我是使用pip直接安装的, pip install wordcloud...

08#wordcloud2包 词云生成器

#wordcloud 这个包下载有问题  # install.packages("wordcloud") # library(wordcloud) # wordcloud(sms_corpus_...

python wordcloud 对电影《我不是潘金莲》制作词云

使用python 的wordcloud,jieba 对电影《我不是潘金莲》豆瓣评论制作词云

python数据挖掘课程 十三.WordCloud词云配置过程及词频分析

这篇文章是学习了老曹的微信直播,感觉WordCloud对我的《Python数据挖掘课程》非常有帮助,作者学习后准备下次上课分享给我的学生,让他们结合词频分析来体会下词云。希望这篇基础文章对你有所帮助,...

python词云 wordcloud 入门

构建词云的方法很多, 但是个人觉得python的wordcloud包功能最为强大,可以自定义图片. 官网: https://amueller.github.io/word_cloud/ githu...

数据库多对多 一对多 建表 sublimeText 输出不全 wordcloud 中文词云为乱码

数据库建表:多对多 一对多 建表思想问题 sublimeText python27环境下控制台print输出不全 wordcloud 中文下输出词云为口口乱码...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:tm/wordcloud合并变形词
举报原因:
原因补充:

(最多只允许输入30个字)