论文爬取系统 | (1) NLP论文爬取系统概述

项目Github地址

在本专栏中,我将试着利用爬虫技术搭建一个论文爬取系统。在日常的科研生活中,不可避免地需要大量查找和阅读相关领域的文献来寻找idea,如何高效并大规模地搜集相关领域的科研文献至关重要,为了避免额外的人力、节约时间,加之博主是做自然语言处理的,所以这款NLP论文爬取系统应用而生,他可以自动地对满足要求的文献进行爬取,并保存在本地指定位置。相比于人工输入关键词检索,对检索结果逐个点击下载;这个自动化工具,可以帮我们省掉一些费时费力的重复操作,我们完全可以在此期间作其他事情,过一段时间直接查看爬取结果就OK了。

该NLP论文爬取系统基于dblp,一个计算机领域的文献数据库。大体原理如下:

1)构造dblp查询url(包含文献关键词、会议名称、年份等信息),爬取该url对应的页面,并解析出每篇论文的页面url。

2)对每篇论文url对应的页面进行爬取,并解析出每篇论文的pdf对应的下载链接。

3)爬取每篇论文pdf,并保存在本地的指定位置。

目前该NLP论文爬取系统支持NLP全系列会议论文的爬取(包括 ACL、EMNLP、COLING、NAACL、EACL、CoNLL等)以及AAAI和IJCAI会议论文的爬取。接下来的几篇博客我将详细介绍该系统的原理和实现细节以及项目文件组织方式。

 

 

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值