R绘制文章标题词云

何物昂

于 2021-10-06 15:47:51 发布

阅读量220

点赞数

分类专栏：生信文章标签：爬虫

本文链接：https://blog.csdn.net/shy_321/article/details/120624505

版权

本文介绍了如何使用R语言绘制2018年TCGA泛癌项目以及2020年Nature子刊全基因组泛癌分析论文的标题词云。首先，通过解析网页HTML获取论文标题数据，然后详细阐述了词云的绘制过程，提供了相关参考资料。

摘要由CSDN通过智能技术生成

数据和问题

见：把tcga大计划的CNS级别文章标题画一个词云

词云绘制

关于词云绘制较详细的步骤可以参考，之前的博文 https://blog.csdn.net/shy_321/article/details/120567111

2018的TCGA的泛癌项目论文

获取数据

文章的标题都在该网页里，
(https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html )
可以选择使用复制粘贴的方式(数据不是很多) 或者，直接解析该网页html的内容，提取标题。
这里采用网页解析的方式。

install.packages("rvest") ###rvest 是R中的一个爬虫包

library(rvest)

### 读取网页， 本来 read_html是可以直接输入url的
### 但是，可能网络原因，或者其他原因把，并不能成功读取
### 所以手动在浏览器上打开 https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html ，
### 然后保存网页为tcga_cancer.html， 在读取
html <- read_html("tcga_cancer.html")

#### 这两行，是为了得到标题内容
sections <- html %>% html_nodes("section")
titles <- sections[2:4]  %>%
    html_nodes("ul > li.journal + li > a")  %>% html_text()

titles    
-----------

最低0.47元/天解锁文章

何物昂

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
R绘制文章标题词云

数据和问题见：把tcga大计划的CNS级别文章标题画一个词云词云绘制关于词云绘制较详细的步骤可以参考，之前的博文 https://blog.csdn.net/shy_321/article/details/1205671112018的TCGA的泛癌项目论文获取数据文章的标题都在该网页里，(https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html )可以选择使用复制粘贴的方式(数据不是很多) 或者，
复制链接

扫一扫