- 博客(432)
- 收藏
- 关注
原创 李飞飞:未来已来,使用Transformer的扩散模型实现照片级视频生成
我们提出了W.A.L.T,一种基于Transformer的方法,通过扩散建模实现照片级视频生成。我们的方法有两个关键设计决策。首先,我们使用因果编码器在统一的潜在空间中联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了内存和训练效率,我们使用了一种专门为联合空间和时空生成建模设计的窗口注意力架构。这些设计决策使我们能够在不使用无分类器指导的情况下,在已建立的视频(UCF-101和Kinetics-600)和图像(ImageNet)生成基准上实现最先进的性能。
2024-12-25 17:09:47
639
原创 Prompt格式到底有多重要?它竟然这样影响LLM函数调用能力(附提示词模版)
在当前大语言模型(LLM)的应用生态中,函数调用能力(Function Calling)已经成为一项不可或缺的核心能力。它使LLM能够通过调用外部API获取实时信息、操作第三方服务,从而将模型的语言理解能力转化为实际的行动能力。从电子设计自动化到金融报告生成,从旅行规划到智能家居控制,函数调用正在将LLM的应用版图快速扩展到各个领域。然而,如何让LLM更准确地理解和使用函数接口,一直是困扰研究者和工程师的关键问题。
2024-12-24 17:51:48
944
原创 这本书是真的牛啊!150页就能让你上手大模型应用开发 简单又透彻
仅仅发布 5 天,ChatGPT 就吸引了 100 万用户——当然,数据不是关键,关键是其背后的技术开启了新的 AI 狂潮,成为技术变革的点火器。书如其名,这是一本有关大模型应用开发的极简入门手册,为初学者提供了一份清晰、全面的“最小可用知识”,带领大家快速了解 GPT-4 和 ChatGPT 的工作原理及优势,并在此基础上使用流行的 Python 编程语言构建大模型应用。何文斯(译者),大模型创业公司 Dify 产品经理、自媒体“何文斯”作者,致力于研究大模型中间件技术和AI应用工程化的实际落地。
2024-12-23 14:31:47
490
原创 使用 ChatGPT o1-preview 进行代码生成讲述人机协作的故事
本文通过代码生成实验来说明人类与人工智能协作的重要性,强调了当人类专业知识增强人工智能效果时所实现的协同效应。通过提供针对性的知识和背景信息,可以更好地引导模型的输出朝向实际解决方案。这种协作动态展示了人类直觉与人工智能辅助如何有效互补。文章的核心是从Python和C++代码生成实验中得出的关键见解,反映了人类专业知识的整合如何显著提升人工智能驱动的任务。
2024-12-23 14:31:08
762
原创 如何在本地运行 Nvidia 的 llama-3.1-nemotron-70b-instruct
在开发者、研究人员和 AI 爱好者中,本地运行大型语言模型(LLMs)变得越来越受欢迎。其中一个引起广泛关注的模型是 llama-3.1-nemotron-70b-instruct,这是 NVIDIA 定制的强大 LLM,旨在增强生成响应的有用性。在本综合指南中,我们将探讨多种方法,以便在您的本地机器上运行此模型,首先介绍用户友好的 Ollama 平台。
2024-12-23 14:27:07
1005
原创 大模型神书《HuggingFace自然语言处理详解——基于BERT中文模型的任务实战》读完少走几年弯路!
2.1 编码工具简介 62.2 编码工具工作流示意 62.3 使用编码工具 82.4 小结 15。
2024-12-20 11:46:34
1158
原创 基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下的文本-图谱双模式转换机制实践
在使用LLM Graph Transformer进行信息提取时,完善的图谱模式定义对于构建高质量的知识表示至关重要。规范的图谱模式明确了需要提取的节点类型、关系类型及其相关属性,为LLM提供了明确的提取指导框架。
2024-12-20 11:45:38
951
1
原创 从入门到精通Transformer,掌握NLP技术这本书必看《从零开始构建最先进的NLP模型》
国内第1本Transformer——变形金刚红书《从零开始构建最先进的NLP模型》如果一定要说未来谁能引领人工智能世界,是Transformer而非chatGPT!编辑推荐★★★★★ChatGPT红得发紫,强得让人类心悸。但在它的背后,还隐藏着一位真正的大佬。它的名字叫做——Transformer!
2024-12-18 11:49:14
989
原创 【AI落地应用实战】构建基于知识图谱的知识问答系统
知识图谱(Knowledge Graph)是一种结构化的语义知识库,它以图形的方式组织和整合信息,使得数据之间的关系变得直观和易于理解。知识图谱的概念融合了计算机科学、数据科学、人工智能等多个领域的技术,旨在通过关联分析揭示数据背后的深层次关系。本文所涉及所有资源均在传知代码平台可获取。
2024-12-18 11:48:11
875
原创 M3DocRAG:文档问答用哪个多模态大模型效果最好?
为了突破以上DocVQA方法的局限性,作者推出了M3DOCRAG(Multi-modalMulti-pageMulti-DocumentVisualQuestionAnswering,多模态多页多文档检索增强生成):一个新的多模态RAG框架,能够灵活适应各类文档情境(封闭域和开放域)、问题跳转(单跳和多跳)以及内容形式(文本、图表、图形等)。如上图,M3DOCRAG框架借助多模态检索模型检索相关文档页面,并利用多模态语言模型(MLM)从检索到的页面生成问题答案。
2024-12-18 11:38:37
941
原创 新书分享|ChatGLM3大模型本地化部署、应用开发与微调(附PDF)
ChatGLM3大模型本地化部署、应用开发与微调》不仅系统地阐述了深度学习大模型的核心理论,更注重实践应用,通过。《ChatGLM3大模型本地化部署、应用开发与微调》作为《PyTorch 2.0深度学习从零开始学》的姊妹篇,专注于。,引导读者从理论走向实践,真正领悟和掌握大模型本地化应用的精髓。
2024-12-16 11:56:39
418
原创 LoRD|基于激活感知的LLMs低秩压缩
LLMs的压缩是降低模型参数量的重要手段。通常对LLMs做压缩的方法有很多,包括量化(Quantization),稀疏化(Sparsity),剪枝(Pruning)这些离散的方法,由于它们的不连续性质,压缩后再微调困难是其最大的缺点。LoRD提出了全新的,基于两个底秩(Low-Rank)矩阵表示权重的方式对权重进行压缩,在获得更低的参数量的同时,保持压缩过程的连续性,并且硬件友好,这使得压缩后微调变得更加轻易做到,甚至做的更好。
2024-12-16 11:55:21
864
原创 多模态在LLMs中的作用:7个必须了解的多模态LLMs的强大功能
在人工智能(AI)的领域内,模态是指能够被AI模型所处理和理解的数据的特定类型或形态。AI的通常所见的多模态数据来源文本:涵盖所有类型的书面语言,包括文章、书籍、社交媒体帖子以及其他形式的文本数据。图像:包含视觉数据,如照片、图画,以及所有其他数字格式的视觉表现。音频:囊括声音数据,包括语音、音乐和各种环境声音。视频:指结合了图像序列(帧)和音频的内容,例如电影、教育视频和监控录像。其他模态:还可能包括传感器数据、3D模型,甚至是与触觉相关的触觉反馈技术。
2024-12-16 11:44:03
750
原创 今年读过最惊艳一本书!几乎把ChatGPT讲透了——<ChatGPT 从⼊⻔到精通>
ChatGPT 作为⼀种强⼤的⾃然语⾔处理模型,其应⽤前景⼴泛,可以应⽤于⾃然语⾔⽣成、对话系统、推荐系统、知识图谱构建、智能家居、⼈⼯智能教育、语⾳识别、机器⼈等多个领域。和重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。和重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。
2024-12-13 15:21:46
721
原创 大模型训练实战经验总结
用了大量的行业数据,模型怎么反而变弱了?比如,对一个回答问题能力不错的模型,用大量数据做指令微调以后,模型变得不会回答问题了。对这个问题,正好做了不少实验,也和周边很多有实践的人讨论了这方面的问题。
2024-12-13 15:20:25
630
原创 被Ai教母李飞飞的巨作震撼得说不出话
✅重点探讨了通过结合外部知识、多感官输入和人类反馈来改进基于下一个具身行为预测的代理系统,设想了一个人们可以轻松创建任何虚拟现实或模拟场景,并与虚拟环境中的具身代理进行交互的未来的可能性。她还曾在Google副总裁,并担任Google Cloud AI首席科学家;当过Twitter的独立董事。✅多模态AI系统的普及性、AI agent和agent AI的区别、基础模型的应用、环境嵌入的重要性、多模态感知能力等。建议STEM专业的留子都去读一读,可以更加深入了解AI前沿内容,对求职会非常有帮助!
2024-12-11 11:44:40
693
原创 使用PyTorch 构建 CLIP | 对比语言图像预训练
现在CLIP是一个(相当)密集的模型,所以如果你想从头开始训练它,你必须在一个小数据集上训练它。由于本文只涉及如何从头开始实现架构,我们将不会进一步详细说明如何创建数据集,但为了示例,这可能是你想要做的。
2024-12-11 11:41:32
1094
原创 普硕非科班,生物医药转行大模型算法岗且薪资涨幅50% !
哈喽,各位小伙伴们~为了帮助大家求职时少走弯路,我总结了学长们分享的真实的大厂面试经验,面试成功的秘诀都在这儿啦~今天分享的是NLP算法工程师的面经,最后薪资成功涨幅50% ~面经里,学长总结了面试时遇到的一些问题和学习过程中遇到的心得体会,供大家参考!学长背景: 普通一本,化学专业,目前做生命科学方向,自学python有两年了,有爬虫、数据分析、机器学习和CNN基础,倾向NLP方向,应聘算法工程师。02面试生物医药行业的公司,岗位是生物医药+算法,算是交叉学科,面试过程不是很难。① 先是让我做了自我介绍,
2024-12-09 14:16:13
898
原创 Windows系统在本地运行通义千问大模型配置教程(超详细)
本文将教给大家(windows用户)怎么在本地运行大模型,并且通过cmd进行交互,不用联网也可以进行询问。
2024-12-09 14:14:37
1124
原创 为什么说学习 Prompt(提示词)是与大模型对话的基石?
当我们与大型人工智能模型对话时,可以把它们想象成小朋友。就像与小朋友交流一样,我们需要用简单明了的语言来表达我们的需求,并给予适当的指导。尽管这些模型可能非常智能,但它们可能无法像人类那样自然理解复杂的指令或隐含的意义。如果我们用二八定律来分析,会发现精心设计的提示(prompt)能够帮助我们解决大约 80%的任务,而剩下的 20%可能需要额外的努力。这意味着,通过优化我们的提示,我们可以更高效地利用大模型的能力,提高工作效率,并充分发挥其潜力。
2024-12-09 14:12:03
1007
原创 【大模型入门】零基础入门AI大模型应用开发,你需要一个系统的大模型入门路径!
随着大模型技术的飞速发展,我们正站在一个全新的技术前沿,探索着如何将这些强大的工具应用于实际问题的解决。如果你对AI大模型应用开发充满热情,那么你可以读一下这篇文章——一个系统全面的入门指南,专为渴望深入AI世界的你设计。
2024-12-06 11:29:16
1089
原创 实践教程|Transformer Decoder-Only 模型批量生成 Trick
这样基本上就算是解决问题了,但生成时第一次和之后还得区分开,说实话还是有点 ugly.还可以进一步优化。
2024-12-06 11:27:03
1070
原创 基于Transformer架构的扩散模型
本文介绍一篇发表于2023年国际计算机视觉大会(ICCV)的研究论文,该论文提出了一种基于Transformer架构的扩散模型,称为Diffusion Transformers (DiTs)。通过用Transformer替代传统的U-Net架构,训练了一种作用于潜在图像块的扩散模型。DiTs在大规模图像生成任务中展现出卓越的性能,成功实现了在ImageNet 256x256和512x512图像生成任务中的性能突破,表明了Transformer在扩散模型中的巨大潜力。
2024-12-06 11:24:52
896
原创 带LangGraph的多智能体工作流
大型语言模型(LLMs)的出现重塑了AI系统与世界互动和解释的方式。传统上,单个智能体架构被用来处理输入、做出决策并产生输出。然而,随着AI系统规模的扩大,以处理更多复杂、多步骤的任务,研究人员和开发人员越来越多地转向多智能体系统和先进的图结构架构。得益于LangChain和LangGraph等框架的支持,这些创新使得更加灵活、可扩展且协作的AI系统能够执行复杂的任务。
2024-12-04 11:57:01
1023
原创 万字长文,三种Transformer模型的注意力机制及Pytorch代码实战!
自注意力机制自2017年在开创性论文《Attention Is All You Need》中被提出以来,已成为最先进深度学习模型的核心,尤其是在自然语言处理(NLP)领域。考虑到其广泛应用,深入理解自注意力的运作机制变得尤为重要。图1:原始Transformer架构在深度学习中,"注意力"概念的引入最初是为了改进递归神经网络(RNNs)处理长序列或句子的能力。例如,在机器翻译任务中,逐字翻译通常无法捕捉语言的复杂语法和表达方式,导致翻译质量低下。
2024-12-04 11:52:47
967
原创 大模型好书安利:《大模型时代:ChatGPT开启通用人工智能浪潮》(附学习PDF)
任何一个单一的大模型统治世界都是极其可怕的前景,只有每个鲜活的个人都拥有自己的个性化的大模型时,新知识才会爆炸性地产生,这个世界才会变得更加可爱。书中还对大语言模型全面融入商务管理、知识生产和创意娱乐等诸多人类实践领域进行了探索和展望,指出人工智能相关技术的迅猛发展将帮助人们全方位地认识世界、融入世界、改变世界,实现人的价值,为人类描绘全面智能化时代的未来图景。生成式大模型正在开创新的时代,基于生成式预训练大模型的技术突破,也在带来面向个人、深入行业的多重应用。但在同时,与机会如影随形的泡沫也会随之涌现。
2024-12-02 11:17:16
875
原创 广告行业中那些趣事系列87:基于LangChain-Chatchat构建本地知识库问答应用
Langchain-Chatchat 是一个基于 ChatGLM 大语言模型与 Langchain 应用框架实现,开源、可离线部署的检索增强生成 (RAG) 大模型的本地知识库问答应用项目。目前(截止20241113)LangChain-Chatchat源码的github项目已经有5.6K的fork和32K的star了,可以说非常流行。
2024-12-02 11:12:57
929
原创 huey + langchain:打造智能任务处理利器!
小贴士 :使用huey时记得先安装Redis,因为huey默认使用Redis作为存储后端。安装命令:huey的主要特点:接下来看看langchain。它是一个强大的框架,专门用于构建基于大语言模型的应用。无论是简单的对话机器人,还是复杂的文档问答系统,用langchain都能轻松搞定。来看个例子:注意事项 :使用langchain前需要设置OpenAI API密钥:完美结合:智能任务处理系统现在让我们把huey和langchain结合起来,打造一个智能任务处理系统:这个例子展示了如何使用huey处理
2024-12-02 11:10:13
882
原创 这本大模型书真绝!《自然语言处理新范式:基于预训练模型的方法》真的不要太强(附PDF)
1.1 自然语言处理的概念 21.2 自然语言处理的难点21.3 自然语言处理任务体系.41.4 自然语言处理技术发展历史7。
2024-11-30 15:45:00
858
原创 阿里大模型Qwen2.5-14B-Chat模型结构及代码解析
1、模型结构:Qwen2.5-14B-Chat和Qwen2.5-14B-Base模型结构一样,与Qwen1.5-14B-Chat代码也一样,不同点在于Qwen2.5-14B-Chat是48层transformer,比Qwen1.5-14B多8层,比之前的更深,模型结构如下:模型代码链接:2、主干模块Qwen2ForCausalLM,模型入口。
2024-11-30 15:43:25
896
原创 实现高效机器人执行的多模态大语言模型动态推理
24年11月来自清华和字节的论文“DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution”。多模态大语言模型 (MLLM) 已展现出对复杂语言和视觉数据的卓越理解和推理能力。这些进步激发了人们建立通用机器人 MLLM 的愿景,该模型能够理解复杂的人类指令并完成各种具体任务。然而,由于机器人平台上的计算和内存容量通常有限,为现实世界的机器人开发 MLLM 具有挑战性。
2024-11-30 15:37:23
1010
原创 PyTorch------解锁深度学习的钥匙!《Deep-Learning-with-PyTorch》
🔥【第一部分】介绍了深度学习的基本内容,从而详细解释了深度学习与 PyTorch库之间的联系,通过大量的练习题(这本书强大之处就在这里,每个章节后都附有练习题,其目的就是为了加深读者对本章内容学习的理解)让读者更容易理解学习内容!PyTorch是一个机器学习框架,主要依靠深度神经网络,目前已迅速成为机器学习领域中最可靠的框架之一,PyTorch在自然语言处理等应用程序上起到了极大的作用!🚀随着科技的发展,人工智能进入了一个高速发展期,而深度学习作为人工智能领域热门的研究方向,获得了极大的关注和长足的发展!
2024-11-28 16:14:57
525
原创 # Multilingual embedding 在构建非英语 RAG 系统时很重要
嵌入是现代生成式 AI 的基石,默默地驱动着我们每天与之交互的许多系统的功能。简单地说,嵌入是文本的数字表示——有效地将单词、句子甚至整个文档转换为数字。这些数字远非随机;它们经过精心设计,可以捕捉文本中的含义和关系。例如,“狗”和“小狗”的嵌入在数字空间中比“汽车”的嵌入更接近,反映了它们的语义相似性。这种将含义编码为可测量形式的能力使得嵌入对于搜索、推荐系统和高级 AI 应用程序(如检索增强生成 (RAG))等任务不可或缺。这种数字转换使 AI 能够以有意义的方式比较和理解文本。
2024-11-28 16:06:34
610
原创 除了混合搜索,RAG 还需要哪些基础设施能力?
Infinity 是一款专门为 RAG 设计的,在功能和性能上全面领先的数据库,针对向量,稀疏向量,还有文本类数据,分别提供高性能的向量搜索、稀疏向量搜索以及全文搜索,并且提供这些数据之上的高性能范围过滤,除此之外,还提供了基于 Tensor 的重排序,这使得数据库内置不亚于 Cross Encoder 的排序能力成为可能,并且还是多模态 RAG (还有个流行的说法叫做 VisualRAG)的强力助推器。因此,如下图所示,Infinity 本质上是一款针对各种数据的全索引数据库。
2024-11-28 16:04:52
1064
原创 大模型神级书籍——LangChain入门指南,零基础轻松入门,7天速学
利用LangChain的组件,开发者可以为聊天机器人设计不同的模块,如与用户进行日常交流的模块、获取天气信息的模块及进行实时搜索的模块。例如,当用户询问一个涉及多个组件的问题时,如“今天天气怎么样,同时告诉我量子力学是什么”,LangChain的链就可以确保“搜索工具组件”和“维基百科查询组件”协同工作,为用户提供完整的回答。想象一下,一个对编程完全陌生的初学者,正面临着如何与模型进行交互的诸多问题,哪怕是简单的GET或POST请求,都可能成为其开发路上的第一道门槛。
2024-11-25 11:59:48
892
原创 从 Llama 1 到 3.1:Llama 模型架构演进详解
原创:面对 Llama 模型家族的持续更新,您是否想要了解它们之间的关键区别和实际性能表现?本文将探讨 Llama 系列模型的架构演变,梳理了 Llama 模型从 1.0 到 3.1 的完整演进历程,深入剖析了每个版本的技术创新,还通过实际实验对比了 Llama 2 和 Llama 3 在推理速度、答案长度和相对答案质量(RAQ)等关键指标上的表现差异。
2024-11-25 11:58:20
1396
原创 基于LLaMA完成第一个微调
一、LLaMA Factory 简介LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调。二、LLaMA Factory 搭建1、下载工程代码2、创建Conda 环境3、安装LLaMA备注,当使用清华源安装时候,默认会安装成torch的cpu版本。本文提供另外的两种方式进行搭建。4、环境验证pytorch 的环境验证。
2024-11-25 11:55:32
567
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅