R绘制文章标题词云

问题

https://mp.weixin.qq.com/s/MGRIJAcSsePtMdLD6hwDwQ, 根据45文章的标题,生成有词云图。

词云

word cloud, 词云图,将word 展现在一张图上。图片中word 大小由word 的频率大小决定。一张好的词云图,可以让人快速了解到,词云图对应数据的所包含的重点。

一张词云图的绘制,可以简单分为三个步骤:

  • 数据收集, 即获取需要进行词云图分析的数据
  • 数据处理, 即数据清理,最终得到有效的词频
  • 绘图

数据收集

总共45篇文章的标题,保存为文件:data.txt

A Novel Copolymer Poly(Lactide-co-b-Malic Acid).pdf
A novel miRNA identified in GRSF1 complex drives the metastasis via the PIK3R3_AKT_NF-百B and TIMP3_MMP9 pathways in cervical cancer cells.pdf
A novel microRNA identified in hepatocellular carcinomas is __responsive to LEF1 and facilitates proliferation and epithelial- mesenchymal transition via targeting of NFIX.pdf
B4GALT3 up-regulation by miR-27a contributes to the oncogenic.pdf
......

数据处理

数据导入
install.packages("tm")  ## 安装tm(text mining)

library("tm")

### 读取数据, 生成一个字符向量
lines <- readLines("data.txt")

### 构建词料库
### VectorSource 从vector 构建Source object
txt_source <- VectorSource(lines)
docs <- tm::Corpus(txt_source)

#### inspect 可用来查看语料库信息
inspect(docs[1:3])
-------------------------------------------------
> inspect(docs[1:3])
<<SimpleCorpus>>
Metadata:  corpus specific: 1, document level (indexed): 0
Content:  documents: 3

[
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值