2017-2021年 ISSCC/IEDM/VLSI三大会论文库信息提取与统计的工作流

最新推荐文章于 2023-05-28 13:36:23 发布

此号已封coin

最新推荐文章于 2023-05-28 13:36:23 发布

阅读量1.5k

点赞数 1

分类专栏： matlab 文章标签： matlab IEDM ISSCC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37921318/article/details/124379055

版权

matlab 专栏收录该内容

6 篇文章 8 订阅

订阅专栏

目录

工作流

工作流

首先你得有所有paper的pdf文件库吧，然后这些文件都是这么命名的：
在这里插入图片描述
故而需要把文件全都重命名，要包含标题/年份/会议/作者这些信息，然后按照机构分类，在机构下再重编号，比如"IMEC001_IEDM2017_Ge stained metal stack FinFET xxxxxxxxx_Mark harley yyyyyyyy.pdf" 。
这里我们以比利时的IMEC为例进行处理整理，看看我们怎么来做这件事吧。
在这里插入图片描述

文献整理（mendeley）

首先我们在WOS上获得了论文数据表格，非常详尽哈。
在这里插入图片描述
基于这个表格，我们要筛选出IMEC的paper的所有行，就用查找/筛选这两项就可以了，然后添加一列内容为year-conf-title的格式，便于排序形成检索的依据。

用mendeley desktop软件进行初步的重命名，便于形成检索，这个很好用,
批量拖拽未合法命名的论文pdf文件，进入mendeley，可自动抓取pdf的论文标题/作者/出版会议/年份/摘要/DOI等信息，并对pdf文件自动重命名为”年份-会议-标题-作者.pdf”。

批量拖拽，生成论文列表
抓取年份/作者/标题等信息，自动重命名
打开文件所在路径，导出命名好的pdf

在这里插入图片描述

批量序列化重命名（advanced_renamer）

advanced_renamer这个软件也是神奇嗷，但是你编订的命名列表里不要含有“/ \ : ! & ”这些字符，会报错，在excel里把他们替换掉吧。

在excel中使用筛选工具选出IMEC机构一作的全部文献后，按“年份-标题”进行排序，粘贴进advanced_renamer。
导入pdf文件的顺序要与表格的内容顺序一致，且不重不漏。
批量重命名

研究机构提取（matlab/python）

接下来需要提取一些第二第三第四单位等信息，提进表格里。写了一个小脚本

找出所有]和[之间的字符串，即为机构名

在这里插入图片描述

在我的下一篇博客里 Matlab脚本分享：字符串列表的正则检索、分割提取

在这里插入图片描述

表格信息录入

这些就是需要一篇一篇读文章来获取的内容了。
在这里插入图片描述

简单的数据统计分析

在这里插入图片描述
卡尔斯鲁厄大学跟IMEC是深度绑定的两个单位，这里就看看这两个的paper的数量关系。其中2018年的KULV的paper我这应该是不太全的，抱歉。

在这里插入图片描述

此号已封coin

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
2017-2021年 ISSCC/IEDM/VLSI三大会论文库信息提取与统计的工作流

目录工作流文献整理（mendeley）批量序列化重命名（advanced_renamer）研究机构提取（matlab/python）表格信息录入简单的数据统计分析工作流首先你得有所有paper的pdf文件库吧，然后这些文件都是这么命名的：故而需要把文件全都重命名，要包含标题/年份/会议/作者这些信息，然后按照机构分类，在机构下再重编号，比如"IMEC001_IEDM2017_Ge stained metal stack FinFET xxxxxxxxx_Mark harley yyyyyyyy.pd
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。