R语言分词及可视化协助快速了解导师研究方向

又到一年一度的考研考博报名环节,想要快速了解某个实验室或导师的科研能力(文章产出、研究方向),如何做到呢?今天分享给大家一个简单高效的统计可视化方法,希望多多提意见,谢谢。

一、可视化的结果图片,在图片中我们能得出,导师的工作主要是Agriculture方向,其中主要作物wheat、maize,主要内容:model、water use efficiency、yield、climate change、ecology、carbon、Meteorology、evapotranspiration、atmospheric等等,基本了解了研究方向是作物-生态(气候)-水资源利用之间的关系。

在这里插入图片描述

二、如何实现的?

1、数据的获取,通过web of science搜索,利用endnote导出关键词获得。详细步骤请参考web of science检索文献Endnote导出关键词

图2

2、详细代码

library(jiebaR)
require(jiebaRD)
yu <- scan("C:/Users/administrator/Desktop/yu.txt",sep = '\n',what = '',encoding = 'UTF-8') ##导入数据txt格式
segp1 <- qseg[yu]  ##分词
length(segp1) ##总词量
[1] 6635
segp2 <- segp[nchar(segp1)>1]##去除字符长度小于1的词
class(segp2)
[1] "character"
segp3 <- table(segp3)##用 table() 函数统计因子各水平的出现次数(称为频数或频率)。也可以对一般的向量统计每个不同元素的出现次数
class(segp3)
[1] "table"
segp4 <- segp[!grepl('[0-9]+',names(segp3))]##过滤数字
segp5 <- sort(segp4,decreasing = T)[1:1000]##将向量或因子(部分)按升序或降序排序
segp5
library(wordcloud2)
wordcloud2(segp5)

#table用法
> sex = c("女","女","女","男","男")
> table(sex)
sex
男 女 
 2  3 
> 
##sort用法,必须排下序要不然会默认a-z排列,像Sciences排后面可视化的结果自动删除靠后的结果
segp1 <- sort(segp,decreasing = T)[1:1000]
> segp1
segp
          Sciences              model              water        Agriculture                use              wheat 
               130                127                108                 87                 84                 84 
             Water            climate             change              yield      Environmental         efficiency 
                75                 74                 73                 67                 65                 63 
           Ecology        temperature               soil             carbon        Meteorology        Atmospheric 
                61                 61                 57                 53                 51                 50 
       variability             winter        conductance evapotranspiration          Resources               crop 
                50                 45                 39                 39                 37                 36 
            forest               leaf     photosynthesis         vegetation              maize          ecosystem 
                36                 35                 35                 34                 33                 32 
            growth            surface             canopy         management             models          radiation 
                32                 31                 30                 30                 30                 29 
           balance              river            impacts              index       productivity             energy 
                28                 28                 27                 27                 27                 26 

三、如何将关键词进行正确的结合?如climate change,本来是一个词汇但分词强行分成了climate和change两个,所以如果有想法或已经有结果的朋友,分享下吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值