PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:PaSa 能够自动调用搜索引擎、阅读论文并追踪引文网络,提供精准的学术文献检索。
  2. 技术:基于强化学习和大语言模型,PaSa 通过 Crawler 和 Selector 两个核心组件实现高效文献检索。
  3. 性能:在 Recall@20 和 Recall@50 指标上,PaSa 比 Google Scholar 分别提升了 37.78% 和 39.90%。

正文(附运行示例)

PaSa 是什么

pasa

PaSa 是字节跳动研究团队推出的基于强化学习的学术论文检索智能体。它能够模仿人类研究者的行为,自动调用搜索引擎、浏览相关论文并追踪引文网络,为用户提供精准、全面的学术论文检索结果。

PaSa 的核心在于其能够处理复杂的学术查询,并通过强化学习优化检索效率。它能够在两分钟内完成一次详尽的学术调研,显著提升了文献检索的速度和准确性。

PaSa 的主要功能

  • 自主调用搜索工具:PaSa 能自动调用搜索引擎,根据用户输入的学术问题生成多样化的搜索关键词,并执行多次搜索,确保全面覆盖相关文献。
  • 阅读和分析论文内容:通过 Crawler 和 Selector 两个核心组件,PaSa 能够高效地收集和筛选相关论文,确保检索结果的精确性。
  • 选择相关参考文献:PaSa 能从海量文献中筛选出与用户查询最相关的参考文献,提供全面且准确的搜索结果。
  • 支持复杂学术查询:PaSa 专为处理复杂的学术问题设计,能够理解并处理细粒度的学术查询,例如涉及特定算法或研究方法的问题。

PaSa 的技术原理

  • 核心组件:PaSa 的核心包括两个主要的 LLM 智能体:Crawler 和 Selector。Crawler 负责通过搜索引擎收集与用户查询相关的学术论文,而 Selector 则负责精读每一篇论文,评估其是否符合用户需求。
  • 强化学习优化:PaSa 使用强化学习(RL)和近端策略优化(PPO)算法进行训练,通过合成数据集 AutoScholarQuery 和真实世界查询基准 RealScholarQuery 来提升搜索效率和准确性。

如何运行 PaSa

在线使用

您可以准备一份详细的学术搜索需求描述,并在 https://pasa-agent.ai 上搜索论文。

本地部署
1. 数据准备

首先,从 pasa-dataset 下载数据集并保存到 data 文件夹中。

pasa/data
├── AutoScholarQuery
│   ├── dev.jsonl
│   ├── test.jsonl
│   └── train.jsonl
├── paper_database
│   ├── cs_paper_2nd.zip
│   └── id2paper.json
├── RealScholarQuery
│   └── test.jsonl
├── sft_crawler
│   └── train.jsonl
└── sft_selector
    ├── test.jsonl
    └── train.jsonl
2. 模型准备

pasa-7b-crawlerpasa-7b-selector 下载模型检查点并保存到 checkpoints 文件夹中。

pasa/checkpoints
├── pasa-7b-crawler
└── pasa-7b-selector
3. 运行 PaSa

克隆并安装必要的依赖项,然后运行 PaSa。

git clone git@github.com:hyc2026/transformers.git
cd transformers
pip3 install -e .
cd ..
pip install -r requirements.txt

utils.py 中替换 Google Search API 密钥,然后运行以下命令:

python run_paper_agent.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值