数据和问题
词云绘制
关于词云绘制较详细的步骤可以参考,之前的博文 https://blog.csdn.net/shy_321/article/details/120567111
2018的TCGA的泛癌项目论文
获取数据
文章的标题都在该网页里,
(https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html )
可以选择使用复制粘贴的方式(数据不是很多) 或者, 直接解析该网页html的内容,提取标题。
这里采用网页解析的方式。
install.packages("rvest") ###rvest 是R中的一个爬虫包
library(rvest)
### 读取网页, 本来 read_html是可以直接输入url的
### 但是,可能网络原因,或者其他原因把,并不能成功读取
### 所以手动在浏览器上打开 https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html ,
### 然后保存网页为tcga_cancer.html, 在读取
html <- read_html("tcga_cancer.html")
#### 这两行,是为了得到标题内容
sections <- html %>% html_nodes("section")
titles <- sections[2:4] %>%
html_nodes("ul > li.journal + li > a") %>% html_text()
titles
-------------<