使用LlamaIndex构建能对文档进行推理；大模型自动执行基于浏览器的工作流；ElevenLabs宣布进军音乐创作领域

本文链接：https://blog.csdn.net/weixin_40425640/article/details/138672857

✨ 1: Building Agentic RAG with LlamaIndex

由Jerry Liu教授、专注于使用LlamaIndex构建能对文档进行推理和回答复杂问题的代理研究型RAG的新课程

在这里插入图片描述

我很高兴向大家介绍“使用（RAG）与Llamalndex构建主动性研究助理代理”的课程，这是由Llamalndex公司合作开发，并由其首席执行官杰瑞·刘亲自教授的。

这门课程将引导你了解如何构建一个能够对你的文档进行推理并回答复杂问题的研究助理代理。标准的RAG流程可以让你加载、索引并查询你的数据，这在一问一答的简单问题上表现良好。

但杰瑞将向你展示如何构建具有更复杂多步推理能力的代理组件。这包括动态路由，能够从不同的工具中进行动态选择；例如，作为进一步处理的中间步骤，使用摘要工具来总结文件，或者使用向量搜索来帮助检索更相关的上下文。

你还将学习如何将这些技术泛化到工具使用上，创建一个为代理调用丰富工具族的接口，并指定正确的参数。我们可以将这些应用到让大型语言模型（LLMs）理解如何调用向量数据库。例如，如果一个查询需要从文档的特定段落或页面中提取信息，LLM可以推断出正确的元数据过滤器，以获取你所需的结果。

我非常高兴介绍这位讲师，Llamalndex的联合创始人兼首席执行官杰瑞。

在这门课程中，你将从主动性RAG的基础开始，并立刻跳入构建你自己的研究代理，它能够对多个文档进行推理。例如，你将学习如何构建一个能够制定并执行计划以从多个arXiv研究论文中检索信息、总结它们甚至比较它们的代理。

控制和调试代理也是一个重要的话题。在高度自主的代理自己决定采取哪些行动和使用哪些工具的情况下，你应该如何指导它们？你还将学习控制和调试代理的最佳实践，以及如何更细致地进行这些操作。

目前，构建研究代理是人工智能领域发展最快的应用之一。我相信你会发现这些技术强大且令人兴奋。请注册参加课程，让我们开始吧！

地址：https://www.deeplearning.ai/short-courses/building-agentic-rag-with-llamaindex/

✨ 2: Skyvern

使用大模型自动执行基于浏览器的工作流

在这里插入图片描述

Skyvern是一个创新的自动化工具，它利用最新的语言模型(Large Language Models, LLMs)和计算机视觉技术来自动化浏览器中的工作流程。如果你需要在网站上做一些重复的事情，比如填写表格、提交数据、获取某些信息等等，Skyvern可以帮你自动完成这些任务，而不需要你亲自坐在电脑前一点点操作。

地址：https://github.com/Skyvern-AI/skyvern

✨ 3: Gemma 2B - 10M

谷歌 Gemma 2B 的上下文窗口最新扩展至 10M。

在这里插入图片描述

Gemma 2B - 10M是一个基于深度学习的语言模型，旨在处理和生成文本。它的独特之处在于能够处理高达1000万（10M）个字符的序列，而且只需要不到32GB的内存空间。这个模型特别适合需要处理大量文本数据的场景，比如长文章、书籍或者数据密集型的报告等。

传统的语言模型在处理这样长度的文本时会遇到内存瓶颈，因为它们在执行过程中需要保存巨量的中间计算结果。Gemma 2B - 10M通过采用一种称为“重复局部注意力（recurrent local attention）”的技术，有效地解决了这个问题。这种技术分割注意力机制到局部块，并对这些局部块施加重复，从而实现在全局上下文中仅以线性（O(N)）的内存增长处理长序列。

地址：https://github.com/mustafaaljadery/gemma-2B-10M

✨ 4: elevenlabs

ElevenLabs宣布进军音乐创作领域ElevenLabs Music

在这里插入图片描述

Elevenlabsio原本专注于文本转语音技术，在这个领域具有一定的影响力。近期，它宣布进军音乐创作领域，推出了ElevenLabs Music，并发布了几首样本音乐。公司还特别说明这些音乐是通过单一提示词自动生成的，没有进行编辑，这可能是为了回应近期AI产品演示作品被质疑造假的问题。此前，用户尝试过Udio和Suno这两款产品，发现尽管基础旋律不错，适合短视频背景音乐，但歌词与旋律的配合存在问题，即歌词的重音与旋律不协调。用户好奇Elevenlabsio是否能利用其语音技术优势解决这一问题。同时，用户也在思考像谷歌、OpenAI这样的大公司是否会进入这一市场，尽管技术上可能没有障碍，但音乐版权的高敏感性可能会导致他们面临唱片行业的强烈反对。

地址：https://elevenlabs.io/

✨ 5: DiffMOT

前沿的多目标追踪（Multiple Object Tracking，简称MOT）方法

在这里插入图片描述

DiffMOT是2024年引入的一个前沿的多目标追踪（Multiple Object Tracking，简称MOT）方法，其全称是“A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction”，即“基于扩散的实时多目标追踪器，带有非线性预测功能”。这种方法的特点是利用了扩散模型进行目标的追踪，尤其是在复杂的动态场景中，通过非线性预测来提高追踪的精确度和鲁棒性。

DiffMOT通过其高性能的追踪能力、实时性和适应性，在需要精确多目标追踪的各类应用场景中都有广泛的应用前景。

地址：https://github.com/Kroery/DiffMOT

在这里插入图片描述