CNS级别文章标题画一个词云

最新推荐文章于 2024-11-09 23:05:21 发布

Jasmine打怪升级ing

最新推荐文章于 2024-11-09 23:05:21 发布

阅读量279

点赞数 1

分类专栏：生信学徒作业文章标签： r语言

本文链接：https://blog.csdn.net/m0_51042606/article/details/120675680

版权

生信学徒作业专栏收录该内容

4 篇文章 0 订阅

订阅专栏

作业4-1：https://mp.weixin.qq.com/s/GHaulIJt5ebvu_x3_x6ptQ
相关代码仍然参考：Word-cloud

TCGA-2018 文章

2018的TCGA的泛癌项目论文全部发表在Cell及其子刊上，文本文件如下：
在这里插入图片描述
词云代码：

library("tm")
library("SnowballC")
library("wordcloud")
library("RColorBrewer")

##文本挖掘
#加载文本
#导入文本文件
text<-readLines(file.choose())
filePath<-"D:/生信学习/作业4-1/2020nature.txt"
text<-readLines(filePath)
#将数据加载为语料库
#docs<-Corpus(VectorSource(text)) #VectorSource()函数创建字符向量语料库
docs<-VCorpus(VectorSource(text))
#检查文档内容
inspect(docs)

#文字转换
#使用tm_map()函数执行转换以替换文本中的特殊字符等
toSpace<-content_transformer(function(x,pattern)gsub(pattern,"",x))#gsub函数:R语言字符串替换函数
docs<-tm_map(docs,toSpace,"/")
docs<-tm_map(docs,toSpace,"@")
docs<-tm_map(docs,toSpace,"\\|")

#清理文本
docs<-tm_map(docs,content_transformer(tolower)) #将文本转换成小写
docs<-tm_map(docs,removeNumbers) #移除数字
#docs<-tm_map(docs,removeWords,stopwords("pdf")) #移除停用词
docs<-tm_map(docs,removeWords,c("and","the"))#移除该文本停用词
docs<-tm_map(docs,removePunctuation) #移除标点符号
docs<-tm_map(docs,stripWhitespace) #消除额外空白空间
#docs<-tm_map(docs,stemDocument) #词干提取

##构建term-document矩阵
dtm<-TermDocumentMatrix(docs) #TermDocumentMatrix函数来自text mining包
m<-as.matrix(dtm)
v<-sort(rowSums(m),decreasing=TRUE)
d<-data.frame(word=names(v),freq=v)
head(d,10)

##生成词云
set.seed(1234)
wordcloud(words=d$word,freq=d$freq,min.freq=1,max.words=200,random.order=FALSE,rot.per=0.35,colors=brewer.pal(8,"Dark2"))