关闭

tm/wordcloud合并变形词

标签: 文本挖掘词云复数变形词合并
662人阅读 评论(0) 收藏 举报
分类:

在文本挖掘中,合并变形词的词频是很必要的。虽然步骤较简单,但很多人都没有注意。

下面比较一下合并跟不合并的差别:

library("tm")
library("wordcloud")
data(crude)
crude <- tm_map(crude, removePunctuation)
crude <- tm_map(crude, function(x) removeWords(x, stopwords()))
tdm <- TermDocumentMatrix(crude)
m <- as.matrix(tdm)
v <- sort(rowSums(m), decreasing = TRUE)
d <- data.frame(word = names(v), freq = v)
cls <- c("gray50", brewer.pal(8, "Dark2"), "orangeRed")
wordcloud(d$word, d$freq, scale = c(6, 0.5), color = cls, random.order = FALSE)
subfix <- c("s", "es", "ed", "ing", "y", "ive", "ic", "al", "ous", "ious", "ish",
    "able", "ible", "ize", "ise")
del <- 0
for (ss in subfix) {
    w1 <- d$word
    w2 <- paste0(w1, ss)
    sel <- w2 %in% w1
    pls <- w1 %in% w2
    if (sum(pls) > 0) {
        f1 <- d$freq
        f1[sel] <- f1[sel] + f1[pls]
        d$freq <- f1
        d <- d[!pls, ]
        del <- del + sum(pls)
    }
}
del
## [1] 104
wordcloud(d$word, d$freq, scale = c(6, 0.5), color = cls, random.order = FALSE)


可以看到合并后opec(欧佩克), market(市场), Kuwait(科威特)等词的重要性明显提高。

安装 SnowballC 软件包后也可以用 tm_map(x, stemDocument) 合并变形词,但效果很差,可以试试。



作者: ZGUANG@LZU

Created: 2015-11-19 四 11:00

Emacs 24.4.1 (Org mode 8.2.10)

0
0
查看评论

利用python画词云图(wordcloud)

想通过python展示一些词出现频率,通过词大小显示出现次数,因此以下为主要搭建环境过程 1.安装wordcloud 直接通pip  install wordcloud会报VC++错误 结局方法 1.网上建议安装Twisted-17.9.0-cp36-cp36m-win_amd64...
  • u012535605
  • u012535605
  • 2017-12-20 19:22
  • 91

利用wordcloud包,画词云图(Python学习实例一)

一、本文目标         如何使用wordcloud包,绘制词云图。            输入:   &...
  • keith0812
  • keith0812
  • 2017-12-07 17:29
  • 165

echarts-wordcloud绘制词云图之空串问题。

最近在使用echarts-wordcloud绘制词云图,在实际的开发环境中表现算是正常,但部署到正常的生产环境上来看,发现实际的云图并非预期,按正常的业务场景,这些关键词至少都是有密度区分的,不应该会展示为这样。 仔细看了下返回JSON子串是这样的,后来想想应该是第一个空串有关,而且这个空串的出...
  • kangkanglou
  • kangkanglou
  • 2017-03-15 20:26
  • 4032

几行代码绘制wordcloud词云

今天看了杨老师的博客,看到一篇关于制作词云的博文,他是参考另一位博主的。我也参考他们两试了试这个词云。 杨老师http://blog.csdn.net/Eastmount/article/details/64438407 曹老师http://blog.csdn.net/wireless_com/ar...
  • accumulate_zhang
  • accumulate_zhang
  • 2017-03-25 21:06
  • 1374

wordcloud(词云)

1.分词当今在R界最流行的中文分词包莫过于jiebaR了,有人用segmentCN,问题重重。jiebaR分词后的词性worker=(“tag”),tagger<=”words“,即可展示分词后词的词性。tips: \t \r \n都是转义字符,空格就是单纯的空格,输入时可以输入空格 \t 的...
  • sinat_20174131
  • sinat_20174131
  • 2015-12-14 19:04
  • 963

Python 3.6 使用wordcloud制作词云(可设背景图像)

首先在安装wordcloud模块,安装方法有几个,可参考安装方法与可能会遇到的问题代码:#!/usr/bin/env python # encoding: utf-8""" @author: gwu @software: PyCharm @time: 2017/3/7 ...
  • u011389474
  • u011389474
  • 2017-03-08 13:24
  • 4557

PYTHON 词图/WordCloud,

需要两个库一个是jieba切词库,将一段句子切词用法比较简单。就是import jieba print " ".join(jieba.cut('我是来自中国北京清华大学的一名硕士研究生,这是我的测试语句,下面测试北京大学生和北京大学学生。'))#默认精准模式 词云...
  • zl87758539
  • zl87758539
  • 2017-06-23 00:47
  • 380

python + wordcloud实现任意形状标签云

公司最新App——AirOh已经上线三个多月,积累了首批原始用户。后台分别对用户和功能进行了统计分析,得到了丰富的数据结果。除了常规的表格、曲线、柱状图及污染热图等展示形式,亦对数据进行标签化处理,得到了非常有意思的展现形式。结果如下: 纯文字标签云 图片叠加效果标签云 从两张图的对比来看,标...
  • snoop_lttx
  • snoop_lttx
  • 2016-12-12 19:48
  • 2579

Windows环境下Python中wordcloud的使用——自己踩过的坑 2017.08.08

Python-wordcloud-初次尝试 作为一个Python初学者,作为学习的开始,这次我根据《一件有趣的事:用Python 爬了爬自己的微信朋友》中的方法测试了一遍效果。这里记录下目前用的wordcloud这个包时遇到的一些问题吧。(具体执行的完整代码我就不放进来了,反正也是依据链接中...
  • heyuexianzi
  • heyuexianzi
  • 2017-08-07 16:57
  • 2538

[牛客]词语变形练习题

对于两个字符串A和B,如果A和B中出现的字符种类相同且每种字符出现的次数相同,则A和B互为变形词,请设计一个高效算法,检查两给定串是否互为变形词。 给定两个字符串A和B及他们的长度,请返回一个bool值,代表他们是否互为变形词。 测试样例: "abc",3,"bca...
  • lxg2015
  • lxg2015
  • 2017-04-20 09:41
  • 312