2017-2021年 ISSCC/IEDM/VLSI三大会论文库信息提取与统计的工作流

工作流

首先你得有所有paper的pdf文件库吧,然后这些文件都是这么命名的:
在这里插入图片描述
故而需要把文件全都重命名,要包含标题/年份/会议/作者这些信息,然后按照机构分类,在机构下再重编号,比如"IMEC001_IEDM2017_Ge stained metal stack FinFET xxxxxxxxx_Mark harley yyyyyyyy.pdf" 。
这里我们以比利时的IMEC为例进行处理整理,看看我们怎么来做这件事吧。
在这里插入图片描述

文献整理(mendeley)

首先我们在WOS上获得了论文数据表格,非常详尽哈。
在这里插入图片描述
基于这个表格,我们要筛选出IMEC的paper的所有行,就用查找/筛选这两项就可以了,然后添加一列内容为year-conf-title的格式,便于排序形成检索的依据。
在这里插入图片描述

mendeley desktop软件进行初步的重命名,便于形成检索,这个很好用,
批量拖拽未合法命名的论文pdf文件,进入mendeley,可自动抓取pdf的论文标题/作者/出版会议/年份/摘要/DOI等信息,并对pdf文件自动重命名为”年份-会议-标题-作者.pdf”。

  1. 批量拖拽,生成论文列表
    在这里插入图片描述
    在这里插入图片描述

  2. 抓取年份/作者/标题等信息,自动重命名
    在这里插入图片描述
    在这里插入图片描述

  3. 打开文件所在路径,导出命名好的pdf

在这里插入图片描述

批量序列化重命名(advanced_renamer)

advanced_renamer这个软件也是神奇嗷,但是你编订的命名列表里不要含有“/ \ : ! & ”这些字符,会报错,在excel里把他们替换掉吧。

  1. 在excel中使用筛选工具选出IMEC机构一作的全部文献后,按“年份-标题”进行排序,粘贴进advanced_renamer。
    在这里插入图片描述

  2. 导入pdf文件的顺序要与表格的内容顺序一致,且不重不漏。

  3. 批量重命名

研究机构提取(matlab/python)

接下来需要提取一些第二第三第四单位等信息,提进表格里。写了一个小脚本

  1. 找出所有]和[之间的字符串,即为机构名

在这里插入图片描述
在这里插入图片描述

在我的下一篇博客里 Matlab脚本分享:字符串列表的正则检索、分割提取

在这里插入图片描述

表格信息录入

这些就是需要一篇一篇读文章来获取的内容了。
在这里插入图片描述

简单的数据统计分析

在这里插入图片描述
卡尔斯鲁厄大学跟IMEC是深度绑定的两个单位,这里就看看这两个的paper的数量关系。其中2018年的KULV的paper我这应该是不太全的,抱歉。
在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值