自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(259)
  • 收藏
  • 关注

原创 35岁程序员看过来,在AI时代程序员最好的3️⃣大出路

都知道程序员有35岁危机,那35岁之后,程序员的出路是什么?我认为这3大出路对于程序员是比较最好的出路。

2024-09-18 11:49:36 452

原创 揭秘Agent框架:如何打造智能高效的AI应用核心

Agent 是具备自主性和智能的系统,它能够感知外部环境、作出决策并执行相应的行为,以完成预定的目标。Agent能够自主感知环境并采取行动以实现目标的智能体。换句话说,Agent 可以作为某个人或组织的代表,执行特定任务或行为,帮助简化工作流程,减少工作量,降低沟通成本。它通过代替人类处理重复性或复杂的任务,显著提升效率。

2024-09-18 10:28:45 250

原创 RAG 高效应用指南:Embedding 模型的选择和微调

万物皆可 Embedding。在推荐系统、自然语言处理和计算机视觉等领域,Embedding 是一个非常重要的概念。Embedding 的本质是一种将高维稀疏数据转换为低维稠密向量的技术,通过这种转换,能够捕捉数据中的语义或特征关系。具体来说,Embedding 用一个多维稠密向量来表示事物的多维特征,从而在一个连续的向量空间中刻画事物之间的相似性和差异性。这种表示方式不仅提高了计算效率,还增强了模型对数据内在结构和关系的理解能力。

2024-09-17 14:00:00 530

原创 深度解析Transformer、RNN和Mamba的联系!

本文深入探讨了Transformer、循环神经网络(RNN)和状态空间模型(SSM)之间的潜在联系。文章首通过这些分析,展示了看似不同的模型架构之间存在深层联系,为未来模型设计和跨架构思想交流提供了新的视角和可能性。

2024-09-16 12:30:00 749

原创 2024年,有多少程序员被迫转行?真相惨烈啊!

其实原因很简单,开发类型的时长增量已经趋于稳定,已经过了一几年时开发新功能抢用户的互联网红利期,所以以前100个人的开发团队,现在其实只需要保留30几个人就可以让业务正常跑了,再加上市面上源源不断的大学生程序员和半道出家的程序员,公认的人才饱和了。很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2024-09-15 11:30:00 707

原创 掌握Transformer之深入多头注意力机制

01这是我关于Transformer系列的第三篇文章。在在前两篇文章中,我们了解了什么是Transformer、Transformer的架构以及其各组件的工作原理。在本文中,我们将进一步深入探讨多头注意力机制,它是Transformer的大脑。闲话少说,我们直接开始吧!02正如我们在第二部分中所看到的,Transformer架构中的Attention主要有三个:编码器中的自注意力层 - 关注输入序列本身解码器中的自注意力层 - 关注输出序列本身解码器中的交叉注意力层 - 输出序列关注输入序列。

2024-09-14 11:47:36 1141

原创 大龄焦虑?老码农逆袭之路:拥抱大模型时代,焕发职业生涯新活力!

其实我很早就对大龄程序员这个话题感到焦虑,担心自己35岁之后会面临失业,有时和亲戚朋友聊天时,也会经常拿这个出来调侃。现在身边已经有很多35岁左右的同事,自己过两年也会步入35岁的行列,反倒多了一份淡定和从容。

2024-09-13 11:58:02 1261

原创 AI不只大模型?AI Agent到底有多强?

学术界和工业界对术语“AI Agent”提出了各种定义。其中,OpenAI将AI Agent定义为“

2024-09-13 10:18:58 1070

原创 最牛的AI产品经理书!读完跪了!

今天给大家推荐一本AI产品必读的书,,随着AI在越来越多的行业被应用,AI赋能的价值逐步体现出来,大模型跟产品经理可以说是绝配,而本书的含金量对产品经理来说的不用多做介绍。

2024-09-12 12:36:20 319

原创 详聊LLaMa技术细节:LLaMA大模型是如何炼成的?

本文介绍来自 Meta AI 的 LLaMa 模型,类似于 OPT,也是一种完全开源的大语言模型。LLaMa 的参数量级从 7B 到 65B 大小不等,是在数万亿个 token 上面训练得到。值得一提的是,LLaMa 虽然只使用公共的数据集,依然取得了强悍的性能。

2024-09-12 10:07:55 842

原创 年薪90W的ai产品经理,确实香!

在转型ai产品经理的过程中,很多小伙伴都会有疑问:ai产品经理要不要懂技术?尤其是算法技术?需要掌握到什么程度?

2024-09-10 11:20:32 574

原创 使用Nest.js+LangChain给低代码平台赋上AI代码生成能力,让低代码变成低低代码!

刚刚说到,基本上市面上的大模型LangChain都支持,但是由于科学原因,国外的模型并不能很愉快的使用,这里我也经过测试,智谱的GLM是一个很不错的模型,推荐大家使用,这里以智谱的GLM模型为例子,如果大家需要更多模型,参考LangChain官方文档的描述相应配置即可。// 导入智谱AI的聊天模型// 定义一个 GlmModelProvider 类,它继承自 BaseModelProvider,并指定模型类型为 ChatZhipuAI// 异步创建模型方法// 设置智谱AI的API密钥。

2024-09-10 10:15:59 1179

原创 一文告诉你程序员该掌握和应用大模型

自训练大模型:算法工程师:极高:较高:这个方向需要深厚的算法和机器学习知识,适合那些对研究和开发新模型感兴趣的人。:垂直大模型:算法工程师:高:高:专注于特定领域的大模型优化,适合有一定领域知识且希望在细分市场深耕的工程师。:工作流:懂业务和大模型的研发工程师:较高:一般:需要结合业务需求和技术,适合那些希望在企业中通过AI技术改善业务流程的工程师。:小成本垂直场景(智能客服、智能助手等):研发工程师:一般:一般。

2024-09-08 11:00:00 828

原创 如何最简单、通俗地理解Transformer?

如何最简单、通俗地理解Transformer?闲话少说,就问一件事情,大家在搞科研的时候有没有遇到这种情况,就是当前输入维度为N训练一个网络,但后期N的大小可能就变了,这时候普通的MLP或者CNN都会傻眼,但Transformer可以非常完美地解决这个问题,并且效果极佳。

2024-09-07 10:15:00 996

原创 30+程序员转行做什么工作比较好?这是最靠谱的答案

随着AI大模型的快速发展和应用,传统初级程序员的工作确实是大受影响,由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。为了让大家少走弯路,少碰壁,第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

2024-09-06 10:31:25 1080

原创 LLM预训练和后训练新范式

在查看 Qwen 2 技术报告中讨论的预训练和后训练方法之前,我们先简要总结一些核心规格。Qwen 2 模型有5种类型。有4个常规(密集)LLM,参数量分别为5亿、15亿、70亿和720亿。此外,还有一个57亿参数的专家混合模型,其中有14亿参数同时被激活。(由于架构细节不是这次的重点,我不会深入讨论专家混合模型;简而言之,这类似于Mistral AI的Mixtral,只是它有更多的活跃专家。高级概述请参见我的 模型合并、专家混合和迈向更小的LLM文章 中的 Mixtral 架构 部分。

2024-09-06 10:19:25 1134

原创 这本大模型书太香了!全方位解析LLM-Agent,第一本给程序员看的AI Agent教程

今天就给大家分享下这本LLM大模型的书,本书从AI agent的角度探索目前人工智能最前沿的技术发展,并且借助开源框架带着读者亲手制作7个常用的agent📕:《大模型应用开发 动手做AI Agent》✏️:黄佳🤔而国内的各科技巨头也纷纷布局AI Agent平台,如钉钉的AI PaaS、百度智能云千帆大模型平台……对于咱程序员来说,是时候将目光转向大模型的应用开发了,率先抢占AI的下一个风口AI Agent!🔍想抢占风口?那本书一定能帮到你~

2024-09-05 11:51:07 720

原创 最新实践!如何基于 DB-GPT 搭建财报分析助手?

目前我们的实现方式是通过上传公司年报,利用大模型作为知识驱动引擎,调用向量数据库、关系型数据库、OCR服务以及相关模型等组件,通过AWEL(agent流式编排)构建一个财报分析的问答助手,能够直接回答用户这几类问题:这里的架构设计主要是通过意图分类解决财报分析中可能出现的问题。针对每类意图执行单独的处理链路,每条处理链路基于不同场景精心设计。同时为了保证数据分析的正确性,我们还会通过解析和抽取用户查询中的相关参数,调用工具或执行 SQL 查询,为分析结果提供更准确的数据支持。

2024-09-05 10:13:14 761

原创 ❣️大模型入门指南——从0⃣-1⃣学习AI大模型,看着一篇就对了

从0⃣-1⃣学习AI大模型,看着一篇就对了从私有化部署、微调、项目实战等多个方面给大家介绍如何✅正确入门AI大模型,涉及的领域范围面广,涵盖各行各业大模型项目落地场景,想学AI大模型这篇资料必备!!🈶️完整电子版,配合视频使用,再也不怕看不懂了‼️

2024-09-04 11:46:05 1206

原创 爆火的与文档聊天的 RAG 开源工具,支持 GraphRAG 、多模态问答和多种复杂推理!

在当今信息爆炸的时代,我们每天都在与海量的文档打交道,无论是研究报告、学术论文还是日常的工作文件。随着数据量的不断增长,如何高效地从这些文档中提取所需信息成为了一个挑战。随着 AI 技术的发展和 RAG 技术的出现,前面遇到的问题,有了一个很不错的解决方案。将您的文档转化为一个智能的知识库,让您能够通过简单的对话就能获取深入的洞察和答案。本文 Kakuqo 将介绍近期 Github 上非常火爆的开源项目 —— Kotaemon。

2024-09-04 11:33:41 965

原创 三分钟搭建线上RAG应用,实现定制化的知识库问答

由于大模型API价格已成白菜价,AI应用的开发将进入到RAG时代,而由于有了像阿里云百炼这样的一站式平台,普通开发者也能开发定制化的AI SaaS应用。遥想2023年的3月份,GPT-4的32k上下文的API价格是平均每千字就超过0.5元,如果是加上历史对话,简单的一个问题都要好几块钱。由于价格太贵,很多应用的开发都只停留在简单的对话上,而现在各种大模型成本的降低,才让RAG应用开发成了可能。

2024-09-03 12:44:44 539

原创 再次封神!AI大模型渗透太快了。。。

无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2024-09-03 11:50:10 791

原创 小白学 RAG:GraphRAG概念、组成和流程

GraphRAG是一种结合了检索(Retrieval)和生成(Generation)的技术,它通过利用外部知识库来增强大型语言模型(LLMs)的性能,有效解决了模型可能出现的“幻觉”问题、领域知识缺失以及信息过时等问题。GraphRAG通过图结构信息,能够更精确地检索和生成与上下文相关的响应。GraphRAG技术通过在生成过程中融入检索组件来提升生成内容的质量和相关性。

2024-09-02 11:24:06 855

原创 LLM的范式转移:RL带来新的 Scaling Law

本文正是在这样的背景下分析和思考 RL 会如何给 LLM 带来新一波的智能提升,以及这对我们未来投资、创业有着怎么样的 implication。

2024-09-02 11:19:09 1400

原创 大模型人才的薪资,今年杀疯了~

黑神话·悟空》火了!🔥果不其然,不仅游戏火,员工也火。据爆料:《黑神话·悟空》,大家都无奈改备注:“不跳槽”。(都准备拿巨额奖金了,谁在这个节骨眼跳槽啊~)但现在做技术,真挺累的…技术领域竞争十分激烈,当你掌握的技能,职场上人人都会,你如何脱颖而出?稀缺性,才是你值钱的关键!那些,现在可能已不再是就业的金钥匙。现在的新技术是AI大模型。AI领域发展迅速,持续学习可以保持个人的技术竞争力,避免职业停滞。

2024-08-31 21:09:51 658

原创 校招生做大模型,选预训练还是SFT?

我推荐选 pretrain,理由如下:pretrain 提高工程能力,sft 提高认知能力作为校招新人,你的当务之急只有一条:提升工程代码能力!我们拆解一下两个团队所需要的技能,你判断下哪个提升代码能力更快。

2024-08-31 21:03:38 862

原创 GLM-4-Long加持的RAG:更准,更简,更全!

一直以来,“RAG派”与“长上下文派”之间争论不休,然而二者各有优劣,如何选择?最佳答案来了:拒绝选择,全都要。今天实操一种加持的新方法(金融领域研报数据),旨在实现更简洁架构,更精准、更全面的问题解答。加持的(参考LongRAG)GLM-4-Long加持的RAG框架通过简化设计,显著提升了效率。:使用整个文档库或将多个相关文档组合成长检索单元,例如32K个token:负责从大量文本中检索出与问题粗略相关的长文本单元,数量不用太多:处理检索到的长文本,提取和生成答案,最大支持),大约相当于2本红楼梦或者。

2024-08-30 20:38:37 687

原创 大模型厂商纷纷入局的Prompt Cache技术解析

旨在通过在大型语言模型(LLM)的推理过程中重用不同提示(prompts)之间的注意力状态来加速推理。,每种方法展示三个步骤(1至3)。每个框表示一个令牌。蓝色框代表提示。(a) 一个LLM接收一个提示(蓝色令牌)并预测下一个令牌(A)(1)。然后,它将生成的令牌(A)附加到提示上以预测下一个令牌(B)(2)。这个过程被称为自回归,会一直持续直到满足停止条件。(b) KV缓存仅在第一步(1)计算一次提示的时间注意力状态,并在随后的步骤中重复使用它们;

2024-08-30 20:32:10 837

原创 35岁零基础能转型AI大模型吗?

在AI大模型开发的快速发展的行业中,35岁的你完全有能力接受新知识,掌握新技能。• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

2024-08-29 12:48:13 1540

原创 一文讲明白大模型显存占用(只考虑单卡)

顾名思义,混合精度训练就是将多种不同的精度数据混合在一起训练,《 MIXED PRECISION TRAINING 》这篇论文里将FP16和FP32混合,优化器用的是Adam,如下图所示:MIXED PRECISION TRAINING论文里的训练流程图按照训练运行的逻辑来讲:Step1:优化器会先备份一份FP32精度的模型权重,初始化好FP32精度的一阶和二阶动量(用于更新权重)。Step2:开辟一块新的存储空间,将FP32精度的模型权重转换为FP16精度的模型权重。

2024-08-29 12:44:50 732

原创 《大模型应用开发极简入门》学习成为善用 AI 的人!看完懂得90%的大模型!{含pdf版电子书}

真心建议学习大模型的朋友都去看看这本书,作为一本应用开发入门书,在豆瓣评分好评不断,其中知识点有不少值得深入研究的领域,适合小白初学者阅读学习的!最近Sora的大火让人们再次见识到了大模型的能力和未来的潜力,相信很多人都开始有深深的危机感,怕自己有一天一不小心就被AI替代。我个人对AI的发展是持乐观态度的。正如360的创始人周鸿祎说的“未来不会用GPT的人将会被淘汰”一样,我觉得未来属于哪些知道如何运用AI的人。

2024-08-28 11:54:26 314

原创 大模型技术讲解:深度神经网络(一)

现在大语言模型变化很快,隔一小段时间就有很多新动态,普通人看的眼花缭乱。虽然大模型变化很快,但背后的技术原理变化不快,了解背后原理有益于我们快速理解和预知大模型的变化。因此,笔者计划开展系列讲解,将所学内容给大家做分享呈现,希望能够共同进步。深度神经网络(Deep Neural Networks,DNNs)是近年来人工智能领域在大模型上取得重大突破的关键技术之一。神经元(Neuron):神经元是神经网络的基本单元,它模拟了生物神经元的结构和功能。

2024-08-28 11:51:46 1023

原创 彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

在 v5e-256 TPU pod 上,Transformer 基线在上下文为 2k 的情况下每次迭代训练需要 0.30 秒,而 TTT-Linear 每次迭代需要 0.27 秒,在没有任何系统优化的情况下快了 10%。然而,TTT-MLP (T) 的强劲趋势表明,Transformer 主干可能更适合更大的模型和更长的上下文,超出了我们的评估范围。在 32k 上下文中,TTT-Linear (M) 和 TTT-MLP (M) 的表现都优于 Mamba,类似于 Pile 8k 的观察结果。

2024-08-27 12:01:55 893

原创 一文搞懂SFT、RLHF、DPO、IFT

随着 ChatGPT 等强大模型的发布,大语言模型(Large Language Models,LLMs)的浪潮席卷而来,并逐渐走进千家万户。LLMs 可以协助文字工作者寻找创作灵感,可以为各年龄段的学生详解知识点,甚至可以帮助心情不好的人做心理疏导。可以说,LLMs 正在成为许多人日常工作与生活的必需品。然而,现阶段的 LLMs 仍然在一些方面饱受诟病。首当其冲的就是“幻觉”问题,LLMs 会自信满满地生成不符合事实或常理的回答,可能对使用者造成误导。另外,LLMs 对于复杂指令的理解与遵循能力欠佳,他们

2024-08-27 11:58:11 946

原创 不会用AI?那是你不懂提示词工程!一文读懂提示词,三个原则轻松使用AI

现在市场充斥着大量的AI工具,但是大概80%的人都是把他当作一个搜索引擎,最近小编接到很多后台私信,总结了一下:1、AI根本没用;2、AI给出的东西,就是模版;3、AI给不了想要的内容

2024-08-26 14:26:23 1022

原创 大模型时代下,算法工程师该何去何从?

提示工程是一种相对较新的学科,专门用于开发和优化提示,以高效地使用语言模型(LM)来处理各种应用和研究主题。提示工程技能有助于更好地理解大型语言模型(LLMs)的能力和局限性。研究人员使用提示工程来提高LLMs在各种常见和复杂任务上的容量,例如问题解答和算术推理。开发人员使用提示工程来设计与LLMs和其他工具接口的强大而有效的提示技术。

2024-08-26 14:22:17 1205

原创 AI产品经理的35岁危机_产品经理会有35岁危机吗

比如在Hoffman首次创业时,他的父母为他留了一间房间,万一创业失败,Hoffman就可以住在那里,重新找一份工作。比如前面那位A君,通过写畅销书,构建起了自己的B方案:专业培训师。当发现自己的身体,因为互联网巨大的工作强度,开始出现问题时,他果断把B方案转化成了A方案。当他开始全职从事专业培训师的工作,不久又运营了一个专业平台,在我看来那是他新的B方案。其实,只要我们构建好差异化优势,持续迭代,同时准备好自己的ABZ方案,那么就一定可以轻松飞跃35岁危机。

2024-08-24 12:50:22 564

原创 大模型从入门到精通,看这篇就够了,AI小白的大模型学习路径_大模型教程

不得不说,是22年底chatGPT的发布让人工智能再次被得到广泛关注。chatGPT所有人都听过,最初我听到它只粗浅的知道它是一个对话工具,好像很厉害,对GPT的认知也以为只是一个简单的品牌代号,就跟AMG、BMW这种类似,没去想会有啥意思。但当后来认真了解了chatGPT每一个字母的详细释义之后,才发现原来人家取名并不是随便取的,在GPT命名的时候就已经告诉我们大模型的一些突出特点了。chatGPT:chat——会聊天的G——generative,生成式P——pre-trained,预训练。

2024-08-24 12:41:58 1084

原创 Transformer系列-10丨一文理解透Transformer

在这个简化的示例中,“sat”本身获得了最高的权重,这是有意义的,因为在自注意力机制中,当前处理的词往往对自身的表示贡献最大。请注意,这个示例非常简化,实际上在Transformer模型中,词嵌入的维度会更大(例如,512维),并且Q、K、V向量是通过词嵌入与不同的权重矩阵相乘得到的。:在最后一层之后,可能还会有额外的操作,如更多的层归一化、线性层等,最终产生模型的最终输出。在这个假设的概率分布中,“prince”获得了最高的概率(0.6),表明根据模型的预测和当前的上下文,“prince”是继“…

2024-08-24 12:38:19 612

原创 Transformer系列-9丨图解 Transformer【译文】

在处理矩阵时,我们可以用一个公式来简化自注意力层输出计算的第二步到第六步的过程。自注意力计算的矩阵表示形式。

2024-08-24 11:55:46 557

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除