科研ABC - SCI大数据

1 何为SCI大数据

  • 和写SCI论文有什么关系?
  • 利用这些大数据对我们写SCI论文有什么帮助吗?
  • 到底应该怎么运用起来呢?自然语言处理技术—>对SCI 论文进行量化分析;
  • 在写SCI论文的过程当中,对大量的相关文献进行阅读和系统的整理, 英文写作,需符合英文表达习惯;
  • 对SCI论文进行量化分析:运用自然语言处理技术对SCI论文进行词频标注及提取;

2 如何运用SCI大数据

2.1 第一步:大数据的提取

  • 读取PDF格式的文献,使用PDFbox 开源工具包自动对文献进行格式转换,将文献转换为txt 格式文档。
  • 错位乱码:txt 中无法显示表格,表格中的文字混淆于正文里边;
  • 对于文献的边角信息,比如作者、地址等,出现不同程度的混淆。
  • 分析目前主流杂志社的文献格式,然后按照不同杂志社可能出现的错误进行初步的降噪处理。
  • 去除文献中的页眉、引文等部分,提高文献的纯净度,这有利于后续的进一步处理,也能提高词汇标注的准确性。
    在这里插入图片描述

2.2 第二步:处理大数据

  • 用正则表达式技术,模糊匹配文献各个部分的标题。
    将文献按照Introduction、Experiment、Results and discussion、Conclusions 分成四大部分。
  • 通过斯坦福大学自然语言处理工具箱对文献进行处理。
    比如,我们假设S 是某一个特定的句子,由一串有顺序的单词w1,w2,w3,…,wn 组成(n=句子的长度), 建议同学们使用马尔科夫模型,假设某一词汇的词性只与前一个词有关,把问题简化。
  • 计算各个词性出现的条件概率p[wn/(wn–1)],完成词性标注。
    把概率最大的词性作为当前词汇的词性

2.3 第三步:对数据进行二次处理

  • 对统计结果中

  • 由于乱码等格式转换问题进行了二次识别,由此所产生的错误要删除;

  • 在第一次降噪时没有识别到的错误,要将其删除。

  • 提高结果的代表性
    建议只保留出现频率较高的词汇,把一些不常见的低频词汇,比如专有词汇、化学符号这些都可以删除,还有一些冠词也可以删除。

3 SCI“大数据”库

3.1 Introduction 部分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 Experimental 部分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.3 Results & Discussion 部分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.4 Conclusions 部分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5 结论

有了这些SCI论文的高频词汇统计表,同学们在写SCI论文的时候就可以有选择性的进行使用,从而避免因为语言习惯不同而造成的错误。也可以帮助同学们提高学习效率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值