一款计算机顶会爬取解析系统 paper info

github链接 :https://github.com/codebricking/paper-info
paper info 可以爬取顶会或者arxiv论文,并且利用ChatGPT对论文的关键信息进行理解,然后利用es进行检索,实现用中文检索英文论文,并快速了解论文核心内容。

当然,对于不从事开发工作的用户来说,部署这个项目,会有一点繁琐,本项目提供了爬取的顶会论文,以及解析的文本信息,用户可以将其直接上传至ChatGPT或者国内的大模型的语料库中,也可以实现和论文直接对话的功能。

背景

AI计算机领域很多新的成果都是通过论文的形式发出来的,高效的检索,下载和了解论文核心内容对于科研十分重要。在计算机领域,尤其是顶会论文。本人在读研初期,没有及时关注最新的高水平论文,阅读了一些质量不算高或者是方法不够新的论文,浪费了不少时间。随着研究的主键深入,对于在哪里寻找高水平论文才有了进一步的了解。因此,在周末空余实现,根据之遇到的问题,写了这样一个工具。

项目实现的功能

  1. 使用Jsoup抓取顶会论文和arxiv的论文关键信息。
  2. 批量下载论文到本地
  3. 使用XEasyPdf解析pdf为纯文本,方便后续处理
  4. 调用ChatGPT梳理论文关键信息
  5. 使用xxl-job定时任务功能,结合Jsoup检测arxiv最新的论文,紧跟研究方向前沿
  6. 使用xxl-job定时定频率地调用api接口,以免频率过高导致调用失败
  7. 使用es进行查询,让用户可以直接在众多论文中进行关键词查找,提高了检索速度
  8. 封装了调用ChatGPT的接口
  9. 封装了调用Google翻译的借口
  10. 封装了ChatGPT和Google代理,需要部署在国外服务器上

技术方案

架构设计

请添加图片描述

项目使用的技术选型

Java8

MySQL8

mybatis-plus

springboot 2.7

elastic search

xxl-job

Jsoup

knife4j

hutool

使用方法

本地项目部署

1、安装MySQL

2、安装es

3、xxjob(可选)

4、运行项目

可以将自己关注的领域的文章导入(JSON数据链接:https://pan.baidu.com/s/1Y3IlR0N2phD6AlKWfkXAdQ
提取码:umgd),调用接口进行翻译和核心内容提取。

使用ChatGPT等大模型

本项目所积累的数据还可以作为和大模型对话的个人数据,将其上传到大模型中,利用ChatGPT或者阿里云等服务自带的向量数据库,可以直接与论文进行对话。

JSON数据链接:https://pan.baidu.com/s/1Y3IlR0N2phD6AlKWfkXAdQ
提取码:umgd

创建一个ChatGPT助手

  1. 进入 https://platform.openai.com/assistants
  2. 点击create创建
  3. 上传数据

在这里插入图片描述

使用阿里云

//todo

顶会数据量

年份AAAIAISTATSACMLCOLTICMLCVPRICCVWACVECCVJMLRNIPSsum
20221623728316212328020406164535126719047
2021196145511513911831047836406028922718702
2020186141954125108114660378135825118978890
2019134035978124771129410750018414266651
201810982165793618979006618410064812
201701674175431783621002316773026
201669116229683206430002345662713
20156731232877269602526001184012817
201447412125583025400001204062046
2013276713250281471454001153572107

详细列表见

data/paper/

top_conference_2013.md337 kB
top_conference_2014.md310 kB
top_conference_2015.md444 kB
top_conference_2016.md414 kB
top_conference_2017.md535 kB
top_conference_2018.md800 kB
top_conference_2019.md1.1 MB
top_conference_2020.md1.5 MB
top_conference_2021.md1.5 MB
top_conference_2022.md1.5 MB

百度网盘

pfd文件

链接:https://pan.baidu.com/s/1FKK27KgbYHm_2n5iDy3WZA
提取码:z8a9

json/sql文件

JSON数据链接:https://pan.baidu.com/s/1Y3IlR0N2phD6AlKWfkXAdQ
提取码:umgd

Q&A

1、项目所部署的机器无法访问ChatGPT和谷歌翻译

A:使用项目中提供的API-Reverse-Proxy模块,将其部署在可以访问的机器上,然后将本地项目调用的接口地址改为代理机器的地址。或者使用国产的替代

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值