数据挖掘提取文献文本信息和图片信息

最新推荐文章于 2021-05-27 20:53:31 发布

Bruce-东方

最新推荐文章于 2021-05-27 20:53:31 发布

阅读量1k

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/qq_26962413/article/details/103544304

版权

学习笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

数据挖掘提取文献文本信息和图片信息

本文来源于日本研究人员的一篇论文《実験的熱電特性のデータベース化に向けた論文データ収集 Web システム Starry data の開発》，这篇论文是日语，感谢金山词霸，让我第一次读懂了日语文献（10000草泥马）。
主要讲解方法。
方法：
本研究中，首先为了不侵害文献的使用章程和著作权，进行大规模的数据收集都会提交copyright。该文章从论文的图表和文本中收集实验数据，数据收集对象是热电材料，包括其特性。使用文献检索系统Scopus7得到论文列表，提取出包含热电特性的可能性较高的论文，进行下载。然后进行了复杂的论文数据管理工作。本文使用Ruby on Rails8这个框架自动化操作，有效地从PDF格式的论文中提取web系统中数据。
结果：
数据收集对象论文列表的制作
根据Scopus,以“Thermoelectric”这一关键词取得47936篇论文列表，用表格阅览这些题目时，推测大约半数是系统应用、传统模拟等非材料类论文。因此，以论文题目为线索，尝试对材料类论文和非材料问题论文进行分类。材料类论文着眼于标题包含物质名（化学式、元素名、矿物名等）的倾向，用自制的脚本判定了有无这样的单词。作为物质名可能性高的特征，在包含下面标记的单词、元素名、-ide、-ite、-ium等结束的单词中，除一般单词外，指定第二个文字以后有大写字母的单词、元素符号的组合和仅由数字、算数符号、x、y‘、z构成的单词。其结果虽然还是留下了不到一成的判定错误，可以对材料类和非材料类的论文进行大致分类，制作了与本研究相关的18471篇论文的列表。
论文全文下载
论文PDF是根据需要的论文，通过web浏览器进行访问出版社的网页来下载的。论文列表以表格计算软件按照日志名称的顺序重新排列，为了进行管理，在各论文中赋予了5位的序列号。通过记载下载页面的URL，事先定义PDF的保存位置文件名，从而使大量文件的管理变得容易，最终的结果是收集了14835篇论文。
数据收集web系统Sarry data的开发
虽然源代码没有公开，但是URL在准备好以后就开始公开。关于本论文或今后出版的本系统，计划以引用英语论文为条件，允许无偿使用。本web系统进行如下的操作。通过web浏览器访问首页后，输入邮件地址和密码就可以登陆各用户名的页面。在Fig.1所示的“获取”标签中，上传进行数据提取的PDF文件，以及从该PDF文件中检测出的图像中删除不需要的图像，可以阅览从图像中追踪图表收集到的数值数据。作者、杂志名等书籍信息以PDF文件中书写的DOI为线索，通过与事先在本Web系统中登录的书籍信息进行自动对照来取得。在“分类”标签中，对于从PDF文件中自动提取的图像，可以输入各轴的物理量、单位、登载试料的信息等。在“提取”标签中，从图表图像中的数据点的追踪作业，可以通过简单的鼠标点击来进行。另外，在分类、提取标签中，为了辅助输入，可以阅览论文的内容，访问出版社的网页，阅览上传的PDF。另外，为了遵守电子日志利用规章，PDF文件作为只能阅览上传的本人的规格，在利用图像时也在表示引用源的基础上利用。
在这里插入图片描述 Fig. 1 A screen shot of the browsing tab of Starry data web system, showing the list of the processed papers, the list of the images extracted from the selected paper9), and the experimental datasets collected from the selected image.