自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(358)
  • 收藏
  • 关注

原创 这本PyTorch官方出品的《Deep Learning With PyTorch》终于有了中文版!

一些线上或线下的关于PyTorch的课程和大学里的计划课程,以及大量的线上博客和教程,使得PyTorch学习起来更容易。(9-14章)作者会引导大家完成一个真正有价值的项目,肺癌的早期检测。(1-8章)是初学者水平,内容会带大家了解 Pytorch 项目,并开始掌握一些基本技能,还会介绍 Pytorch API 和一些 Pytorch 库背后的特性,并训练一个初始的分类模型。(15章)就很简单了,主要介绍了 Pytorch 部署的相关内容,非常简明,也意味着 Pytorch 的部署工具其实并不复杂。

2024-09-06 14:50:36 543

原创 Langchain-Chatchat+Qwen实现本地知识库

Langchain-Chatchat一种利用思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。大致过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本作为上下文和问题一起添加到prompt中 -> 提交给LLM生成回答。Qwen-7B(14B)是阿里云研发的通义千问大模型系列的70(140)亿参数规模的模型。

2024-09-04 12:00:41 1222

原创 LangChain + ChatGLM2-6B 搭建个人专属知识库

更强大的性能:基于 ChatGLM 初代模型的开发经验,全面升级了基座模型。ChatGLM2-6B 使用了GLM的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。更长的上下文:基于。

2024-09-04 11:55:18 984

原创 使用 Langchain-Chatchat 搭建一个自己的知识库(使用google实验室环境)

本文将在 google 实验室中使用 Langchain-Chatchat 搭建一个知识库,还可以进行聊天等功能。由于是在 google 实验室上面跑代码,所以本地电脑什么配置都无所谓!效果图运行起来后可以上传各种文档文件到知识库。完整笔记: colab.research.google.com/drive/1TDYS…

2024-09-04 11:38:57 1153

原创 215篇【大模型医疗】论文合集(附PDF)

ChatGPT的横空出世引发了新一轮生成式大模型热潮,作为最新技术的"试验场",医疗也成为众多大模型的热门首选。😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓。,供大家学习和参考。

2024-08-31 23:37:00 263

原创 大语言模型(LLMs)经典论文清单!

原文:https://zhuanlan.zhihu.com/p/620360553要说2023刷屏最多的词条,ChatGPT可以说是无出其右。到最近的GPT-4,技术的革新俨然已呈现破圈之势,从学术圈到工业界再到资本圈,同时也真切逐步影响到普通人的日常生活与工作。坦白来讲,对于大语言模型生成相关的工作,个人长期以来持保守态度,认为这个方向更多的是一种深度学习的理想追求。现在看小丑竟是我自己,也许优秀的工作正是需要对理想状态的持续追求,才叫优秀的工作。

2024-08-31 23:21:27 1350

原创 【推荐】多模态基础大模型技术白皮书|附下载

为此,需研究多模态内容理解与生成任务统一建模,面向理解与生成任务相关的多种下游任务,包括语音识别、语音合成、视觉描述、视觉问答、视觉内容生成、跨模态检索等具体应用,设计与多模态预训练模型尽可能兼容的多任务学习机制,使得各个任务的学习能够互相兼容、互为增强,各个任务可以从其他任务中所学到的技能和知识中收益,在提升模型性能和泛化能力的同时,赋予预训练模型更强的通用性。因此,需研究面向应用部署的模型推理加速、面向特定任务的模型泛化与迁移学习,实现高效的预训练学习算法,同时保障预训练模型泛化性和鲁棒性。

2024-08-30 18:01:27 1202

原创 互联网人+大模型=?

外界看是“你有这么高速运转的互联网人搭载了大模型记住我给出的原理”而实际上大模型的出现让原本分裂出了朋友,现在是大模型乱纪元,而你,又是哪一派呢?派别再多大伙的终极需求也是一致的最后请问——你和AI处得怎么样?

2024-08-30 16:50:32 944

原创 深入浅出LangChain:从模型调用到Agents开发的全流程指南

不同的模型,最大的上下文窗口的大小差异较大,我们最常用的GPT-4,实际上只有8000左右的token数。它们是可以执行某些操作的对象,通常接受输入并产生输出。LangChain、LangGraph以及LangSmith的组合,极大的简化了开发者构建AI应用、Agents、Tools的工作量,抹平了各个AI厂家间的调用差异,适配了大量了中间件及组件,形成了一个完整的解决方案。如下是一个实例创建的代码,建立之后可供调用的方法是统一的,当然不同API支持的方法的数量不同,其中支持最全面的还是openai。

2024-08-29 15:07:17 908

原创 190款大模型背后:揭秘600天后的中国大模型产业落地

如果说,从移动互联网到云计算,再到今天的大模型时代,是当下对企业发展的一种宏观叙事逻辑。那么从微观上讲,对于仅过去600天的大模型时代而言,它的叙事逻辑又是怎样的?以及它的生命周期会呈现出怎样的轨迹?8月,据中央网信办透露,截至目前,我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型已达190多个,注册用户数超过6亿。在大模型狂飙的600天后,国内大模型不仅整体上呈现出百花齐放的态势,在交通、教育、制造、医疗等七大行业,更是开始崭露头角。

2024-08-29 14:51:07 1051

原创 一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操

RAG(Retrieval Augmented Generation, 检索增强生成)是一种技术框架,其核心在于当 LLM 面对解答问题或创作文本任务时,首先会在大规模文档库中搜索并筛选出与任务紧密相关的素材,继而依据这些素材精准指导后续的回答生成或文本构造过程,旨在通过此种方式提升模型输出的准确性和可靠性。RAG 技术架构图介绍:富文本 主要存储于 txt 文件中,因为排版比较整洁,所以获取方式比较简单实战技巧:【版面分析——富文本txt读取】

2024-08-29 10:59:08 1158

原创 AI 时代之下,如何构建企业专属的智能知识库?

想象一个由人工智能管理的强大数据库,它不仅存储信息,还能理解、分析和运用这些信息。这就是AI知识库——一个能够自我学习、不断进化的智能系统。

2024-08-28 15:34:30 2073

原创 GLM-4-Flash免费:在线微调GLM-4-Flash + Function Calling搭建法律知识库

在利用GLM-4-Flash进行在线微调和Function Calling时,数据加密:确保在数据传输和存储过程中采用加密技术,保护用户数据和法律案件信息的机密性。访问控制:实施严格的访问控制策略,限制对模型服务和案件数据库的访问权限,防止未经授权的访问和数据泄露。合规性审查:定期对模型服务和案件数据库进行合规性审查,确保符合相关法律法规的要求。

2024-08-28 15:06:05 976

原创 用 Transformers 处理自然语言:创建基于Hugging Face的文本内容处理程序

今天在寻找 Transformer 学习材料的时候,找到了《Natural Language Processing with Transformers》的开源翻译,如果没有买书的同学可以看一下。重点是情感分析的任务(一个常见的文本分类问题),并介绍了Trainer API。探讨了Transformers所面临的挑战和该研究领域的一些令人兴奋的新方向。探讨了Transformers模型生成文本的能力,并介绍了解码策略和度量。挖掘了文本摘要的复杂的序列-序列任务,并探讨了用于这一任务的指标。

2024-08-28 11:55:04 238

原创 牛津大学发布首篇《Transformer多模态学习》综述论文,23页pdf涵盖310篇文献全面阐述MMT的理论与应用

4节中,我们通过两个重要的范例,即多模态预训练和具体的多模态任务,对多模态Transformer的应用进行了回顾。本次综述的主要内容包括:(1)多模态学习、Transformer 生态系统和多模态大数据时代的背景,(2)从几何拓扑的角度对Vanilla Transformer、Vision Transformer和多模态Transformer 进行理论回顾,(3)通过两个重要的范式,即多模态预训练和具体的多模态任务,对多模态Transformer 的应用进行回顾。

2024-08-27 18:19:20 1018

原创 登上神坛!这本代码逐行解读注释的transformer宝藏书籍,哪怕是零编程基础也能学懂!

这两本书都非常适合初学者和编程基础不好的人,从配置环境开始,一步步带你达成最终目标,你只需要跟着作者的步伐去思考即可!除此之外,这本书的15个章节还都是实战项目,这意味着你将会极大程度锻炼自己的动手实践能力,而非只有虚浮的理论知识。别看它封面平平无奇,这可还是除了《处理几乎所有机器学习问题》之外,我看到的第二本代码解读注释如此详细的宝藏书籍!,书中代码都非常详细且提供了解读注释,目的也是为了鼓励大家去编写和复现高质量的代码。对于想要学习transformer的人来说,它绝对是你的不二之选!

2024-08-27 16:29:18 213

原创 多模态,彻底爆发了!

全新GPT-4o mini发布,多模态AI更强大,在5月中旬,OpenAI向世界揭开了GPT-4o的神秘面纱,这个全能的多模态巨人站在了GPT-4的肩膀上,将人工智能的边界推向了新的高度!LangChain、Fine-tuning等定制你的专属大模型应用。技术的程序员、势必是未来更抢手、更具竞争力的AI技术人才!为了让大家更好的抓紧大模型机遇,特邀本号粉丝专享——借助大模型技术提高收入的可能性。,还是想转行AI赛道的传统。大模型的发展历程与训练方法。无论你是正处在瓶颈期的。2天直播+直播互动答疑。

2024-08-25 14:30:00 184

原创 2024中国AI Agent行业研究报告(PPT 可编辑)+2024中国AI Agent市场研究报告

报告指出,AI Agent作为大模型时代的核心应用,通过自然语言处理和深度学习技术,实现了自主性、反应性与交互性。AI Agent的构建依赖于大型语言模型(LLM),这些模型提供了突破性技术方案,增强了Agent的学习能力和迁移能力。AI Agent的商业价值逐渐显现,尤其在企业服务领域,通过自动化和智能化提升了工作效率。报告还提到,AI Agent可成为个性化媒体推荐、社交媒体运营、情感分析等多个领域的助手,同时在金融、医疗、法律等专业领域提供专业服务。

2024-08-24 11:39:35 339

原创 【重点】人工智能大语言模型技术发展研究报告2024|附下载

还从互联网、金融、制造业等领域逐渐延伸至医疗、教育、交通等更多行业,较为成熟的大模型的应用生态丰富多样,从多模态数据处理到智能客服,人工智能技术正推动各行各业的数字化转型。2023 年以来,以ChatGPT、GPT-4 为代表的大模型技术的出台,因其强大的内容生成及多轮对话能力,引发全球新一轮人工智能创新热潮。通过对海量数据的深度学习和分析,大模型能够准确理解人类语言的深层含义,并将其与丰富的知识库相结合,提供更为智能、精准的服务。报告特别关注了智能体的发展,这一新兴的技术形态正成为大模型研发的重要方向。

2024-08-24 11:14:13 599

原创 干货:中国人工智能大模型技术白皮书

近日,中国人工智能学会发布了《中国人工智能大模型技术白皮书(2024版)》。白皮书全面梳理了大模型技术的发展历程、关键技术、生态发展、应用实践等方面的最新进展,并对其未来趋势做出展望。

2024-08-23 18:11:48 902

原创 《大模型训练数据白皮书》在第七届数字中国峰会发布:大模型是数据要素价值释放的最短路径

在训练数据合规方面,针对模型训练的特点,本书提出顺应模型发展的数据治理思路。本板块内容依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态,聚焦于AI风险、AI大模型安全、AI大模型开闭源生态、AI大模型出海等AI治理政策研究,基于技术理性的风险观,为大模型发展与安全平衡与取舍提供独到见解。基于大模型对训练数据的使用特点,应构建顺应模型发展的新时代的数据治理制度,包括重视数据的可及性,提升模型安全训练数据的供给,以及应用新技术以提升训练数据的合规性和安全性等方面。

2024-08-23 17:59:05 583

原创 怎么在大模型之上构建应用?构建人工智能上层应用的框架——langchain

langchain,在大模型之上构建应用的脚手架**”**在大模型之上构建应用需要很多的步骤,比如文档加载,数据库读取,大模型加载,以及各个环节的连接等。因此,就有了langchain这个开发框架,它的功能就是把大模型开发过程中需要的常见问题整合在一块,方便开发者。当然,不使用langchain是否能构建上层应用?答案是可以,但会很麻烦。01什么是langchain?

2024-08-22 15:45:22 571

原创 一个面向小白开发者的大模型应用开发教程

一个面向小白开发者的大模型应用开发教程

2024-08-22 15:23:52 749

原创 AI 与大模型如何助力金融研发效能最大化?

在金融行业,技术创新与严格合规的需求并行存在,推动着研发团队不断寻求更高效的解决方案。面对日益增长的市场竞争和技术进步,金融机构必须迅速适应变化,同时确保所有创新措施都符合监管要求。这种需求催生了对高效研发流程和先进技术应用的追求。在日前的 InfoQ《超级连麦. 数智大脑》x FCon 直播中,我们邀请到以及,深入探讨了在金融研发中提升效能的有效策略,如何选择合适的技术栈和架构设计,以及如何利用 AI、大模型和低代码等技术优化研发流程、加速产品交付。

2024-08-22 14:54:27 1144

原创 一张图学完Agent智能体,无门槛上手!

之前跟大家分享过一些Agent实战案例,今天用一张图带朋友们学完Agent智能体的核心要点,内容简洁,通俗易懂。看完后大家可以立马上手创造出各种各样的Agent智能体,最后分享下有人用Agent造了个GPT Plus。大家接触Agent智能体的时候肯定看过下面这张图。上面包含四个核心模块 Planning、Memory、Tools 和 Action。这四个模块的作用我们先不解释,我们再来一张实操图,跟着实操找答案。这是一个Agent平台的配置界面,我将这个页面的模块做了标注。

2024-08-22 14:27:38 972

原创 AIGC行业最缺这三种人才,文科生和商科生也能转行?

AIGC时代,是基于大模型诞生的新人工智能时代。这一时代带来的机遇,对人才的需求和培养提出了新要求。

2024-08-21 15:46:09 1106

原创 算法秋招的同学,推荐两个准备面试的神器!

我们都知道,手撕代码是算法面试中必不可少的一环,甚至可以说一定程度上决定了面试的成败。今天推荐的两个神器均和手撕代码有关,第一个是,号称 AI LeetCode,主要是对一些算法相关的内容,像 LeetCode 那样手写提交。目前有30多道题目还不是很多,不过相信过不了多久,大家一起贡献下,题目会越来越多,类似手撕Transformer,bert等高频题目也会有,大家可以持续关祝。第二个是。

2024-08-21 15:29:53 498

原创 写给大模型新人的经验,刷到少走三年弯路!

最后,给准备入场大模型的新人几点建议:不要只关心 finetune,SFT,RLHF,作为系统性学习是 OK 的,切忌花太多精力。想做应用的,建议 focus 到某个垂直领域,比如对话机器人,问答系统,金融/医疗/教育方向,找一个具体的场景,把它做好,做深。多关心数据,data pipeline,高质量训练/测试集的构建经验,对数据的sense,是最直接,也是最适合用到未来工作当中的。大模型不只有算法,也可以有工程。

2024-08-21 14:57:43 928

原创 利用大模型构造数据集,并微调大模型

目前大模型的微调方法有很多,而且大多可以在消费级显卡上进行,每个人都可以在自己的电脑上微调自己的大模型。但是在微调时我们时常面对一个问题,就是数据集问题。网络上有许多开源数据集,但是很多时候我们并不想用这些数据集微调模型,我们更希望使用某本书、某个作者的作品、我们自己的聊天记录、某个角色的对话来微调模型。用于微调的数据通常是成千上万的问答对,如果手工搜集,需要花费大量时间。文本将介绍一种方式,利用大模型来构造自己的数据集,并使用我们构造的数据集来微调大模型。

2024-08-20 22:20:24 1217

原创 在 Google Cloud 上轻松部署开放大语言模型

今天,“在 Google Cloud 上部署”功能正式上线!这是 Hugging Face Hub 上的一个新功能,让开发者可以轻松地将数千个基础模型使用 Vertex AI 或 Google Kubernetes Engine (GKE) 部署到 Google Cloud。Model Garden (模型库) 是 Google Cloud Vertex AI 平台的一个工具,用户能够发现、定制和部署来自 Google 及其合作伙伴的各种模型。

2024-08-20 22:13:31 576

原创 这样图解Transformer应该没人看不懂了吧!

Transformer架构在处理本质上具有序列特性的文本数据方面表现出色。它以一个文本序列作为输入,并产生另一个文本序列作为输出,例如将输入的英文句子翻译成西班牙语。其核心由多层编码器(Encoder)和解码器(Decoder)堆叠而成。为避免混淆,我们将单个层称为编码器或解码器,而将一组编码器层称为编码器栈(Encoder Stack),一组解码器层称为解码器栈(Decoder Stack)。编码器栈和解码器栈各自为其输入配备了相应的嵌入层(Embedding Layer)。

2024-08-20 21:45:51 1002

原创 LLM大模型技术实战:一文讲透专补大模型短板的RAG

所有的AI模型的底层原理都是基于数学概率,其模型输出实质上是一系列数值运算,大模型也不例外,所以它有时候会一本正经地胡说八道,尤其是在大模型自身不具备某一方面的知识或不擅长的场景。收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。)的训练集基本都是构建于网络公开的数据,对于一些实时性的、非公开的或离线的数据是无法获取到的,这部分知识也就无从具备。

2024-08-20 21:39:43 1038

原创 AI 进阶实战 | 走进大模型(LLM)+智能体(Agent)+提示词(Prompt)

AI 进阶实战 | 走进大模型(LLM)+智能体(Agent)+提示词(Prompt)

2024-08-20 21:24:00 1190

原创 科学家提出大模型微调新方法,效果优于现有大模型参数高效微调

最近,美国斯坦福大学团队提出了一种基于大语言模型表征的微调新方法,名为 ReFT。该方法通过训练干预模块对模型表征进行干预,从而达到训练的目标。近日,相关论文以《ReFT:针对大语言模型基于表征的微调方法》()为题,发表在预印本网站arXiv上[1]。斯坦福大学博士研究生吴政璇和阿拉曼·阿罗拉(Araman Arora)是共同第一作者,克里斯多夫·波茨()教授担任通讯作者。图丨相关论文(来源:arXiv吴政璇是斯坦福大学自然语言处理组的博士研究生,该研究的设计思路来源于一次偶然的实验。

2024-08-18 14:00:00 1001

原创 不会大模型不要紧!只需5分钟!你也可以微调大模型!如何快速微调Llama3.1-8B

AI浪潮席卷全球并发展至今已有近2年的时间了,大模型技术作为AI发展的底座和基石,更是作为AI从业者必须掌握的技能。但是作为,相信大家也有一颗想要训练或微调一个大模型的心,但是苦于技术门槛太高,无从下手。今天教大家一个非常快速的方法,5分钟就可以让你快速上手去微调一个大模型。还不赶紧去试试!什么是模型微调?大模型微调(Fine-tuning)是指在已经预训练好的大型深度学习模型基础上,使用新的、特定任务相关的数据集对模型进行进一步训练的过程。这里我们用的微调方式选择的是Lora。

2024-08-17 12:30:00 731

原创 融合AI大模型技术,数字人交互更自然、应用更广泛!

AI大模型的发展让数字人互动更真实、技术更高效、应用更广泛,融合AI大模型的数字人技术发展也面临一些挑战,如需要大量的计算资源和数据支持、模型训练的难度和复杂性等。不过,相信随着技术的不断进步和优化,数字人技术将会持续完善和发展。

2024-08-16 16:28:27 1099

原创 数字人全拆解:如何构建一个基于大模型的实时对话3D数字人?

借助iPhone实现面部表情捕捉并用于数字人:本图片来自Unreal官方网站。

2024-08-16 15:55:25 1387

原创 【Llama3:8b】手把手教你如何在本地部署 自己的 AI 大模型 (◍•ᴗ•◍)

【Llama3:8b】手把手教你如何在本地部署 自己的 AI 大模型 (◍•ᴗ•◍)

2024-08-14 15:38:18 639

原创 LLM Agent提效揭秘4:多智能体协作工作流深度剖析

通过本文对ChatDev、MetaGPT和AutoGen三篇论文的详细分析,我们深入了解了多智能体协作工作流在大语言模型(LLM)中的应用。这些多智能体的框架,简直是反思、工具使用和规划的集合体,尤其是多角色的设计,Prompt如何设计,反思如何设计,工具如何调用。另外,从工程角度来看,角色之间的对话沟通是如何设计,是采用直接通信还是广播,都是很有意思的事情。这些框架通过分工合作、角色专精和对话编程,大大提升了复杂任务的解决效率和效果。

2024-08-14 15:18:34 939

原创 快速迁移大模型到昇腾910B保姆级教程(Pytorch版)

所谓自定义模型就是不适用Ollama官方模型库中的模型,理论可以使用其他各类经过转换处理的模型Ollama库中的模型可以通过提示进行自定义。# 设置温度参数# 设置SYSTEM 消息SYSTEM """作为AI智能助手,你将竭尽所能为员工提供严谨和有帮助的答复。"""Modelfile文档One-API是一个OpenAI接口管理 & 分发系统,支持各类大模型。这里使用Docker快速进行部署。拉取镜像创建挂载目录启动容器访问IP:3001初始账号用户名为 root,密码为 123456。

2024-08-14 14:37:31 1503

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除