自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(262)
  • 收藏
  • 关注

原创 仅用61行代码,你也能从零训练大模型

本文并非基于微调训练模型,而是从头开始训练出一个全新的大语言模型的硬核教程。看完本篇,你将了解训练出一个大模型的环境准备、数据准备,生成分词,模型训练、测试模型等环节分别需要做什么。AI 小白友好~文中代码可以直接实操运行。欢迎阅读体验。1 准备训练环境2 准备训练数据3 训练分词器4 训练模型5 测试模型6 完整代码通过这篇文章,你可以预训练一个全新大语言模型。全新训练的好处是训练的数据、训练的参数都是可修改的,通过调试运行我们可以更好的理解大模型训练过程。

2024-07-22 10:05:38 484

原创 推荐一本get新技能的大模型书籍,人人都可动手做AI Agent基础入门!!!

代理”这个词在AI出现之前就有了,哲学家们研究过它。像亚里士多德和大卫·休谟这样的大思想家都讨论过代理的概念,他们认为只要能自己做决定,不管是人、动物还是别的东西,都能称作代理。到了20世纪80年代,AI的研究者也开始关注这个概念了。目前,我们倾向于把所有能够感知环境、做出决策并采取行动的实体或系统视为人工智能领域的代理。而AI Agent,即人工智能代理,被定义为一个能够自主执行任务、做出决策并与环境交互的系统。

2024-07-22 09:30:18 305

原创 爆火!开源多模态大模型在手机端进行本地部署!

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型& AIGC 技术趋势、大模型& AIGC 落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。大家好,今天继续聊聊科技圈发生的那些事。

2024-07-21 10:00:00 520

原创 如何确保大模型 RAG 生成的信息是基于可靠的数据源?

在不断发展的人工智能 (AI) 领域中,检索增强生成 (RAG) 已成为一种强大的技术。RAG 弥合了大型语言模型 (LLM) 与外部知识源之间的差距,使 AI 系统能够提供更全面和信息丰富的响应。然而,一个关键因素有时会缺失——透明性。我们如何能够确定 RAG 系统呈现的信息是基于可靠来源的?本文介绍了一种引人注目的解决方案:使用结构化生成的带源突出显示的 RAG。这种创新的方法不仅利用了 RAG 检索相关信息的能力,还突出了支持生成答案的具体来源。

2024-07-20 10:15:00 662

原创 提示工程 vs 微调 vs RAG?终于讲明白了

本文将探讨提示工程(Prompt Engineering) 、微调(Fine-tuning)和检索增强生成(RAG)的优缺点,旨在帮助你理解何时以及如何有效地运用这些技术。自大型语言模型(LLMs)和先进聊天模型问世以来,人们采用多种技术从这些AI系统中获得所期望的输出结果。一些方法通过改变模型的行为使其更好地符合我们的预期,而另一些方法则专注于优化我们对LLMs的查询方式,以获取更精确和相关的信息。

2024-07-19 09:24:21 551

原创 大模型时代,Java程序员不应该被落下

LangChain4j提供了一套高阶抽象,如Agents和RAGs(检索增强生成),以及一系列低级别工具,如提示模板、内存管理和输出解析器。你可以通过定义接口并使用方法,快速创建和使用这些服务,而无需了解底层实现细节。

2024-07-19 09:21:29 1076

原创 AI大模型需要什么样的数据

人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。ChatGPT与GPT-3的模型架构类似,并使用RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。人工智能领域以数据为中心的AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。

2024-07-18 17:56:52 879

原创 如何训练多模态LLMs以理解和与文本、图像、视频和音频进行交互

近期,多模态大型语言模型(LLMs)因其能够理解和生成各种数据类型的内容而受到研究界和科技行业的广泛关注。这些多模态模型建立在像Chat-GPT这样的单一模态模型的基本原则之上,整合了视觉、听觉和文本数据,使它们能够提供更丰富且更具上下文相关性的输出。本文将提供一个关于多模态大型语言模型领域的背景及相关研究的简要概述。近年来,人工智能领域最突破性的进展之一是大型语言模型(LLMs)的发展和普及。这些模型以前所未有的规模运作,处理大量数据以执行语言任务,准确度惊人。

2024-07-18 09:58:58 660

原创 大型语言模型(LLMs)是怎样“学习”的?一封给网络工程师的大模型指南

生成式人工智能(Generative AI,一般简称为Gen AI)”是一种人工智能技术,专注于创造或生成新的内容,例如图像、文本或音乐。这些内容不是直接复制或派生自现有的示例,而是由计算机自己创造的。生成式AI的一个重要应用是生成文本,比如自动写作、诗歌创作或对话生成。“大型语言模型(Large Language Models,LLMs)”是一类生成式AI,它们通过深度学习算法在大量自然语言数据上进行训练。这些模型学习人类语言的模式和结构,并能够对各种书面输入或提示生成类似人类的回应。

2024-07-18 09:57:23 957

原创 AI产品经理研读:Agent的九种设计模式(图解+代码)

好了,以上就是目前所总结的 Agent 九大设计模式,其实 Agent 中。

2024-07-17 10:03:18 568

原创 我日常是如何使用LLM工具的:你的LLM工具没用起来,可能是因为方法不对。

今天和大家讲了一点朴素的提示词工程能力,供大家日常使用,不必焦虑天天要用,即使是今天这篇文章,LLM 的参与度也不算特别高,大概 30%左右。​。

2024-07-17 09:54:48 1232

原创 聊聊普通工程师如何入坑大模型 | 附超详细教程!

现在我整天都在忙着钻研大模型前几天,跟强哥一起吃饭。他说,大模型的技术,真是太好玩了!他买了一台超高配置的游戏本,本来是想买回来打游戏放松放松的。结果后来发现,玩大模型的技术,比打游戏好玩太多了!我连连表示赞同,不错不错,关键是游戏本没白买啊,跑大模型正好也用得上😀(强哥是谁?不重要,你只需要知道是一位登上人生巅峰的技术大佬就好了)认真地说,以大语言模型 (LLM) 为核心的AI技术,正在如火如荼地席卷整个行业。技术的发展日新月异,几乎每天都有突破性的进展。

2024-07-16 10:38:00 672

原创 OpenAI 大神亲授,人人都能看懂的大模型入门教程(三)

大模型安全领域是一个非常新且发展迅速的领域,文中介绍的三种攻击方式仅是冰山一角,还有许多其他的攻击方式,如下图。这也是大模型里非常值得研究的领域。

2024-07-16 10:00:00 1183

原创 OpenAI 大神亲授,人人都能看懂的大模型入门教程(二)

书接上回,接下来要讨论的是大模型是如何逐步进化的,以及目前的进展情况。首先要提到的是关于大模型效果的(scaling law),简单说就是大模型在预估下一个词这一任务上的效果只跟两个因子相关,并且与这两个因子存在着某种函数关系,这两个因子就是和。只要知道了这两个因子,就可以比较置信地预估出模型在预估下一个词这个任务上的效果。就当前来讲,这一准则还没有显现出到顶的迹象,所以在更多的数据上训练更大的模型,仍然大概率会得到更好的模型(就预估下一个词这个任务而言)。

2024-07-15 10:48:05 715

原创 OpenAI 大神亲授,人人都能看懂的大模型入门教程

​ 这是来自 AI 界世界级导师,OpenAI top 级人物 Andrey Karpathy 的大语言模型入门讲座,讲座主题是 The busy person’s intro to LLMs,可以说这就是能看到的最好的大模型入门教程了,老少咸宜,业内工作者可以看到大模型里涉及到的各个可以深挖的方向,对于感兴趣的业外人士,讲座内容也非常浅显易懂且全面。讲座的原始视频发表在其 youtobe 的个人账号里:https://www.youtube.com/watch?

2024-07-15 10:46:00 961

原创 Transformer 是如何工作的:600 行 Python 代码实现两个(文本分类+文本生成)

Transformer 是一类非常令人着迷的机器学习架构之前已经有一些不错的介绍文章(例如 [1, 2]),但过去几年transformer 变得简单了很多, 因此要解释清楚现代架构(modern architectures)是如何工作的,比以前容易多了。本文试图丢掉历史包袱,开门见山地解释现代 transformer 的工作原理。神经网络和反向传播(neural networks and backpropagation)的基本知识有助于更好地理解本文,这个讲座介绍了神经网络的基础知识;这个讲座。

2024-07-13 10:25:34 735

原创 Transformer各层网络结构详解!大模型面试必备!(附代码实现)

是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的Bert就是基于Transformer构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。

2024-07-13 10:23:06 608

原创 一文读懂RAG和LLM微调,教你结合业务场景落地LLM应用

1. 需要外部知识吗?对于以前摘要的风格进行摘要的任务,主要数据源将是以前的摘要本身。如果这些摘要包含在静态数据集中,就不太需要持续外部数据检索。但是,如果有一个频繁更新的摘要动态数据库,目标是不断与最新条目对齐的话,RAG可能在这个场景更好发挥作用。\2. 需要模型适配吗?这个用例的核心是适应专业领域或特定的写作风格。微调特别擅长捕捉风格细微差异、语调变化和特定领域的词汇,因此对于这个维度来说,微调也是是一个必要的选择。\3. 必须是最小化幻觉吗?在大多数LLM应用中,都会存在响应幻觉的问题。

2024-07-13 10:18:59 1013

原创 利用大语言模型(LLM )提高工作效率

日常工作就是面向 google/ 百度编程,除了给变量命名是手动输入,大多时候就是通过搜索引擎拷贝别人的代码,或者找到旧项目一段代码拷贝过来使用。这无疑是开发人员的真实写照;然而,通过搜索引擎搜索答案,无疑是粪堆里淘金子,遇到简单的问题,一次搜索点三个连接找到答案,复杂的问题可能要反复调整 搜索的关键字,分别有在 百度 和 google 尝试查找,甚至还要用 bing 碰碰运气。

2024-07-12 10:34:20 825

原创 大模型时代,程序员如何实现自我成长?——一名普通开发者的 ChatGPT 2周年记

Inflection AI 的 Pi 是目前使用体感最好,如果说我将 ChatGPT 当作工具人,那 Pi 就是一个善解人意的小伙伴,优先于人的设计理念,相比其他服务于生产力、搜索或解答问题的 AI,可以放心将 Pi 视作一个具有创造力的教练、朋友或者是一个“发泄情绪”的对象,当然有类似定位的还有致力于让每个人都可定制自己的个性化 AI 的 Character.ai,不过靠提示词调教出来的虚拟角色稳定性堪忧,但是以这个项目作为入口,收集海量高质量交互数据,具备构建出体验超过 Pi 的大模型潜力。

2024-07-12 10:32:26 656

原创 案例集 |《2024大模型典型示范应用案例集》正式发布,精选99个,纵览最新最全产业应用实践!(附PDF)

收到申报案例数百个,经专家组全面评估,最终遴选出 99 个优秀案例,其中 45个“行业赋能”、46 个“智能应用”、8 个“生态服务”, 覆盖新型工业化、能源、医疗、政务等重要应用场景,涵盖天文、农业、化学等 科学领域,以及智能数据标注、大模型评测、云边异构融合服务等创新平台。截 至今年 5 月,我国国产大模型的数量已经超过 300 个,预示着大模型在各行业场景的创新应用和深度拓展,对培育新质生产力、高水平赋能新型工业化、推动高质量发展发挥了重要作用。《案例集》收到申报案例中,上海占比超过 50%。

2024-07-12 10:26:34 492

原创 开启想象翅膀:轻松实现文本生成模型的创作应用,支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型,开箱即用

TextGen实现了多种文本生成模型,包括:LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型,开箱即用。ChatGLM:本项目基于PyTorch实现了ChatGLM-6B模型LoRA微调训练和预测,可以用于句子纠错、对话等文本生成任务LLaMA:本项目基于PyTorch实现了LLaMA模型LoRA微调训练和预测,可以用于对话生成任务和领域微调训练BLOOM。

2024-07-11 10:06:28 686

原创 详解各种LLM系列|LLaMA 1 模型架构、预训练、部署优化特点总结

在当今的多模态大模型的发展中,模型的性能和训练数据的质量关系十分紧密,可以说是 “数据赋予了模型的绝大多数能力”。在这其中,图像 - 文本数据集发挥着至关重要的作用,在图像理解、文本生成和图像检索等多个领域发挥着关键作用。然而,现有的图像描述数据集主要来源于网络抓取和人工标注,存在着质量参差不齐、细节缺失、描述噪音多等问题。尽管人类可以为图像提供详细的描述,但高昂的标注成本限制了其规模和可行性。因此,迫切需要一种高效、可扩展的方法来生成准确且详细的图像描述。

2024-07-11 09:57:24 972

原创 将图像自动文本化,图像描述质量更高、更准确了

在当今的多模态大模型的发展中,模型的性能和训练数据的质量关系十分紧密,可以说是 “数据赋予了模型的绝大多数能力”。在这其中,图像 - 文本数据集发挥着至关重要的作用,在图像理解、文本生成和图像检索等多个领域发挥着关键作用。然而,现有的图像描述数据集主要来源于网络抓取和人工标注,存在着质量参差不齐、细节缺失、描述噪音多等问题。尽管人类可以为图像提供详细的描述,但高昂的标注成本限制了其规模和可行性。因此,迫切需要一种高效、可扩展的方法来生成准确且详细的图像描述。

2024-07-11 09:55:07 243

原创 【ai_agent】从零写一个agent框架(五)基于egui制作一个agent/workflow在线编辑器

上篇我们实现了基础节点,并暴露出grpc服务,但是手动编辑文本制作一个workflow实在强人所难。所以本文我们做个webui自动生成workflow。开搞之前先看看别人怎么做的。

2024-07-10 10:24:43 695

原创 【ai_agent】从零写一个agent框架(四)用rust制作一个python的虚拟运行环境。

为了增加框架的扩展性和适用性,我们要能够在流程节点中运行python脚本。1 为什么是python?思考:老实说我并不喜欢python,我更倾向于lua这种短小轻快的脚本。在我之前写的规则引擎rush里,就用的lua脚本写规则。并且我对比过多个脚本的性能,lua可以甩python几条街。但是,python是大众的选择,被更多的人接受,没得选,只能是它。这里有屌大的就要说了,为啥不用js,不用wasm,它们用的人也很多。不管是从应用的角度看,还是从平台的角度讲,长远来看这哥俩也是要支持的。

2024-07-10 10:23:14 610

原创 【ai_agent】从零写一个agent框架(三)实现几个示例中的service:llm,tool等

上一篇文章里我们实现了一个基本的运行时,能够将service按照plan执行起来,本文我们尝试实现一些基本节点,最终运行一个最简单的agent。代码仓库。

2024-07-10 10:21:16 810

原创 【ai_agent】从零写一个agent框架(二)如何让一个workflow/agent跑起来,runtime模块设计

上篇文章我们大致演示了一下ai_agent的食用方法。这里我们做一下核心模块runtime的设计和实现。一个agent也好,workflow也好,他们单个实现起来并不复杂,困难的是如何将他们有机的组合起来,能够按照一定的逻辑流转起来。并且能够层层嵌套,能力无限。现实中应用肯定不局限于这几种情况,但通过一定的流程编辑基本都可以解决,只是复杂性会比较高。

2024-07-10 10:20:13 700

原创 【ai_agent】从零写一个agent框架(一)打造最强开放agent编辑框架,拳打dify,脚踩coze

之前我们讲过了想将LLM能力在具体的应用中实践,最好的方法是做成一个agent。本系列我们就从零写一个agent框架,方便我们构造和运行agent。

2024-07-10 10:15:53 1339

原创 手把手教你从零搭建Agent框架

无论是环境的反馈,还是人类的指令,Agent 都需要完成一个对接收到的信息进行“理解”,并依据得到的理解进行意图识别,转化为下一步任务的过程。真正让人惊讶的是大模型在推理上的能力涌现。推理,一般指根据几个已知的前提推导得出新的结论的过程,区别于理解,推理一般是一个“多步骤”的过程,推理的过程可以形成非常必要的“中间概念”,这些中间概念将辅助复杂问题的求解。不同的智能体有不同的推理提示风格、不同的输入方式以及不同的解析输出方式,依赖于用户对应用的自定义,说白了就是对大模型进行一层封装更方便管理。

2024-07-10 10:12:55 655

原创 该让医疗垂类大模型,走出“试题”了

李宇剖析道,功能是打动不了人的,场景才能打动人,解决某一场景的具体需求。以智能监控为例,它可以完全替代人看,且完成人根本看不过来的量级,甚至比人看的效果好得多。在他看来,医疗大模型商业化如今动力不足的很大一部分原因,则是没有完全打透的场景、没有彻底替代人的工作、没有完成人完成不了的工作。李宇指出,B2B解决方案之间的PK,将不会把重点放在令人眼花缭乱的AI技术能力,而更关注这些技术层面的能力,将如何帮助企业用户具备(或重新定义)更有价值的企业工作流程。聚焦多场景覆盖,也是不少医疗大模型企业的出发点。

2024-07-09 09:57:35 537

原创 Langchain-Chatchat大语言模型本地知识库的踩坑、部署、使用

Langchain-Chatchat是一个基于ChatGLM大语言模型与Langchain应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型的本地知识库问答应用项目。

2024-07-09 09:52:00 1096

原创 徒手使用LangChain搭建一个ChatGPT PDF知识库

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。顾名思义,是用于读取和处理PDF文件的,选择这库是因为今年还在更新,并且对中文的支持还不错。对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。天道酬勤,你越努力,就会成为越优秀的自己。

2024-07-09 09:44:44 525

原创 AI产品经理发展与规划

今天引用高飞老师的讲课内容,分享一下,何为AI产品经理?这个话题不仅仅希望介绍AI产品经理的工作方式等方面的内容,更多的在于讨论未来产品经理这个行业应该如何发展?行业壁垒在何处?如何应对中年危机?在发展中应当如何看待技术、如何看待行业的专一性等一系列问题。产品经理行业需要不断提升自己的竞争力,但不能散漫的学习,需要找准发力点,有效率、有效果的进行提高。高飞老师是一名医药行业的产品经理,长年从事医药领域产品的开发工作。

2024-07-08 10:03:48 302

原创 AI时代的产品经理的成长之路:可能是小宇宙最全的产品经理指南(中)

这种反思能力有助于不断提高决策的质量,并避免重复犯同样的错误。

2024-07-08 09:57:54 668

原创 AI时代的产品经理的成长之路:可能是小宇宙最全的产品经理指南

2019年~2021年期间,我在做智能写作项目创业的时候,由于当时市场相关产品较少,遇到了问题没有可以参考的竞品。我们只能一路探索,一路踩坑,一路修正。随着产品的迭代,我也在不断地迭代自己的认知,梳理AI产品的方法论和技能树。当时还和Shadow在“蔚来”做了一次关于《AI时代的产品思维》分享。但是光有方法论还不够,随着团队越来越大,也出现了一些管理上的新的问题。团队中新入行的同学,在职业发展的道路上产生了迷茫,甚至也有人提出了离职。

2024-07-08 09:52:31 829

原创 如何减少大模型回答的虚假信息?试试这个方法降低幻觉

AI产生幻觉是指大型语言模型(以下简称“LLM”)虚假、误导或无关的答案。这是我们在使用AI过程中,经常遇到的情况。比如,大模型生成虚假的新闻信息。这是因为大模型缺乏相关训练数据或者误解训练数据。AI幻觉的问题是,它们生成的信息,连贯、可信且有说服力,很容易让人信以为真。如果这些信息被用于关键决策(例如保险公司评估风险、分配或拒绝消费者贷款等),危险性非常大。如果模型提供商定期用新数据重新训练模型,提高生成输出的准确性,并提供滚动更新版本,LLM出现幻觉的可能性会降低。

2024-07-07 11:00:00 657

原创 微软:9个提示词技巧,让AI大模型高质量回答你的问题!

提示工程(Prompt engineering)可以提升大模型输出质量。然而,这也具有一定挑战性,因为它需要理解模型的能力和局限性,以及所涉及的领域和任务。以下是微软官网给出的9个撰写提示词的建议。更多内容可在文末点击阅读原文查看。确保提示词具体说明你希望模型生成的内容,包括预期的格式、长度和语气。例如,如果你希望模型生成新闻文章的摘要,可以指定句子的数量、需要涵盖的主要观点以及写作风格。这有助于大模型更清晰地识别有意义的信息,并消除歧义。

2024-07-06 09:45:00 913

原创 AI 产品经理的三重门

AI时代的AI产品经理应该像创业者一样,全局把控公司产品方向,用AI技术赋能重新定义手头的产品,真正的成为AI产品经理型CEO。

2024-07-05 10:35:39 910

原创 转型AI产品经理需要掌握的硬知识:AI产品经理能力模型和常见AI概念梳理

近几年,从亚马逊, Facebook,到谷歌,微软,再到国内的BAT,全球最具影响力的技术公司都将目光转向了人工智能( AI )。2016年 AlphaGo 战胜李世石,把公众的目光也聚集到了人工智能。创新氛围最活跃的中国,已将人工智能定位国家战略,2017年11月15日,中国新一代人工智能发展规划暨重大科技项目启动会在京召开,公布我国第一批国家人工智能开放创新平台,包括:百度-自动驾驶工智能开放创新平台;阿里云-城市大脑人工智能开放创新平台;腾讯-医疗影像-人工智能开放创新平台;科大讯飞-智能语音人工智能

2024-07-05 10:29:54 986

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除