自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 程序员为什么要学习LLM大模型应用开发?

你就拿一个人家训练好的波尔模型拿过来,然后在下游进行或者分类,或者说NE2,去接一下不同的下游处理,就可以直接上手处理不同的任务,或者一般还是需要微调的,所以你再训练一下就可以解决实际问题了。这就是游戏里需求,也非常大。当然说让它完全替代你的代码不可能,但是你可以用它给你写一些框架性东西或具体的一个小问题,可直接让他写,然后拿过来你试下好不好用,甚至有bug也可以让他改一下。就好像你开发应用一样,你现在去开发操作系统,你除非说国产替代,正常来讲,微软和苹果已把操作系统完全占领,你不可能再打开空间。

2024-07-20 12:15:00 741

原创 LangChain原理学习笔记(大模型)

最新越发觉得AI的发展,对未来是一场革命,LangChain已经在工程设计上有了最佳实践,类似于AI时代的编程模型或编程框架,有点Spring框架的意思。之前在LangChain上也有些最佳实践,所以在这里分享记录下。

2024-07-20 12:00:00 750

原创 LangChain轻松入门和开发实践

LangChain是一个开发语言模型应用的框架。LangChain能够简化开发与语言模型工作流中的复杂部分,帮助开发人员能够更轻松地进行开发,并定制满足需求的应用。LangChain有两大优点,一是它能将外部数据,如文件、其他应用、API数据等,无缝地集成到语言模型中;二是它通过代理功能,让语言模型能够与环境进行交互,实现决策制定。通过这种方式,可以让语言模型帮助决定下一步的行动,特别是在路径不明确或未知的情况下。在本专栏中,我们将探讨 LangChain 的独特特性,包括其组件和针对特定用例的链。

2024-07-20 11:45:00 461

原创 RAG 2.0架构详解:构建端到端检索增强生成系统

简单来说,RAG可以为我们的大型语言模型(LLM)提供额外的上下文,以生成更好、更具体的回应。LLM是在公开可用的数据上训练的,它们本身是非常智能的系统,但它们无法回答具体问题,因为它们缺乏回答这些问题的上下文。所以RAG可以向LLM插入新知识或能力,尽管这种知识插入并不是永久的。而另一种常用向LLM添加新知识或能力的方法是通过对我们特定数据进行微调LLM。通过微调添加新知识相当困难,昂贵,但是却是永久性。通过微调添加新能力甚至会影响它以前拥有的知识。

2024-07-19 15:25:57 755

原创 RAG-LLM大模型外挂学习(附学习文档)

检索增强生成(RAG)是一个概念,也可以称为一种范式,它旨在为大语言模型(Large Language Model,LLM)提供额外的、来自外部知识源的信息。2020 年,Lewis 等人在论文《知识密集型 NLP 任务的检索增强生成》(Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks) 中,提出了一种更为灵活的技术——检索增强生成(Retrieval-Augmented Generation,RAG)。

2024-07-19 15:23:05 1000

原创 白嫖一个属于你的私有大模型

最近国内的大模型可谓是遍地开花,你瞧瞧:这么火,我也想搞一个试试,于是就有了这篇文章!对,你没看错,就是白嫖。毕竟人家清华都开源了,哈哈哈hoho~~最重要的一点,人家遵循Apache-2.0协议。下面开干吧!

2024-07-19 15:19:55 620

原创 LLM 大模型学习必知必会:大模型基础知识篇

LLM 大模型学习必知必会系列(一):大模型基础知识篇魔搭 ModelScope 开源的 LLM 模型魔搭 ModelScope 欢迎各个开源的 LLM 模型在社区上做开源分享。目前社区上已经承载了来自各个机构贡献的不同系列的 LLM 模型。并且社区的开发者也在这些模型的基础上,贡献了许多创新应用,并在 ModelScope 的创空间上进行分享。

2024-07-18 20:09:52 892

原创 LLM大模型技术及趋势总结(附入门文档)

本篇文章旨在希望大家对大模型的本质、技术和发展趋势有简单的了解。由于近期大模型技术发展很快,这里对大模型的技术、本质及未来趋势进行总结和探讨时,水平有限,疏漏在所难免,请大家谅解。

2024-07-18 17:37:41 842

原创 大模型时代的PDF解析工具

与传统的PDF解析工具相比,大模型时代的PDF解析工具将PDF解析成Markdown,从而保留一些结构化的信息(例如表格和图片),再喂给大模型,从而避免把精华处理成垃圾,避免垃圾进,垃圾出。去年(2023年)大模型才爆发,因此这些大模型时代的PDF解析工具都是新生产物,有很多地方尚待改进,不过它们也更新迅速,感兴趣的读者可以持续关注。

2024-07-18 14:45:20 752

原创 2024年度最佳 | 国内外AI大模型哪家强?

AI大模型在技术、应用和市场等方面展现出了前所未有的蓬勃发展态势,各行各业都在广泛使用AI大模型,例如搭建AI知识库以科学管理企业知识,这一趋势不仅标志着人工智能技术的飞跃性进步,也预示着未来社会的深刻变革和广泛应用前景。接下来就盘点一下国内外的热门AI大模型吧。

2024-07-18 09:20:15 794

原创 如何从零开始训练一个LLM大模型

从零开始训练一个大型语言模型(LLM)是一个复杂且资源消耗巨大的过程,涉及多个步骤和阶段。

2024-07-17 16:57:36 599

原创 AI产品经理面试_ai产品经理面经

引入项目背景:首先简要介绍所在公司或团队的背景和所负责的产品或领域,以便面试官了解项目的背景信息。项目概述:明确说明你在该项目中的角色和职责,并简要描述该项目的目标和挑战。突出强调该项目对业务的重要性和价值。方法和过程:阐述你采取的方法和过程,包括数据收集与分析、用户研究、需求分析、解决方案设计等。强调你的分析能力和逻辑思维,并说明你如何应用产品知识和技术来解决问题。项目成果:提供具体的数据和指标支持,展示项目的成果和影响。例如,用户留存模型的项目中,可以提及留存率的改善情况、用户行为的变化等。

2024-07-17 14:29:57 901

原创 当我面完国内20家公司大模型岗位面试后,没想会这样...

淘天集团的大模型研究将主要围绕两个场景展开:一是搜广推,二是逛逛的内容化。团队组建工作由淘天集团CEO戴珊、淘天集团CTO若海、阿里妈妈CTO郑波等人共同牵头。介绍链接。淘天集团的大模型研究将主要围绕两个场景展开:一是搜广推,二是逛逛的内容化。团队组建工作由淘天集团CEO戴珊、淘天集团CTO若海、阿里妈妈CTO郑波等人共同牵头。介绍链接。

2024-07-17 11:49:02 960

原创 全网爆火!学大模型必备的大模型黑书来了!内行人全都在学~ (附pdf)_大模型的pdf英文原版

1.1 Transformer 的生态系统1.2 使用Transformer 优化NLP模型1.3 我们应该使用哪些资源1.4 本章小结1.5 练习题8.1 文本到文本模型8.2 使用T5 进行文本摘要8.3 使用GPT-3 进行文本摘要8.4 本章小结8.5 练习题。

2024-07-17 09:38:22 602

原创 OpenAI 大神亲授,人人都能看懂的大模型入门教程

​ 这是来自 AI 界世界级导师,OpenAI top 级人物 Andrey Karpathy 的大语言模型入门讲座,讲座主题是 The busy person’s intro to LLMs,可以说这就是能看到的最好的大模型入门教程了,老少咸宜,业内工作者可以看到大模型里涉及到的各个可以深挖的方向,对于感兴趣的业外人士,讲座内容也非常浅显易懂且全面。讲座的原始视频发表在其 youtobe 的个人账号里:https://www.youtube.com/watch?

2024-07-16 16:59:45 953

原创 大模型书籍-从零开始大模型开发与微调:基于PyTorch与ChatGLM(附PDF)

哈喽各位,今天又来给大家分享大模型学习书籍了,今天是这本,大模型是深度学习自然语言处理皇+冠上的一颗明珠,也是当前AI和NLP研究与产业中最重要的方向之一。本书使用PyTorch 2.0作为学习大模型的基本框架,以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术,为读者揭示大模型开发技术。

2024-07-16 12:05:30 506

原创 LLM大模型-大模型应用开发入门书籍《大模型应用开发极简入门》,入门读他就对了!

大家好,今天给大家推荐一本大模型应用开发入门书籍《大模型应用开发极简入门》,本书对很多AI概念做了讲解和说明!朋友们如果有需要 《》,

2024-07-16 09:31:42 719

原创 大模型(LLM)在金融投资领域的应用

通用领域的大型语言模型(LLM)如GPT系列、Llama系列和BERT,在许多自然语言处理任务中表现优异,这激发了针对金融领域的专用LLM的开发。这些专门模型通过大量金融数据的训练,提升了它们在理解和生成金融相关内容方面的能力。在金融LLM中,Ploutos尤为值得关注。它源自GPT-4,专注于可解释的股票走势预测,结合多模态数据和专家分析,能够生成量化策略和准确的股票预测。尽管存在专家选择偏见和计算复杂性等挑战,Ploutos仍表现出色。

2024-07-15 17:27:25 956

原创 LLM大模型-程序员为什么要学习大模型应用开发?

你就拿一个人家训练好的波尔模型拿过来,然后在下游进行或者分类,或者说NE2,去接一下不同的下游处理,就可以直接上手处理不同的任务,或者一般还是需要微调的,所以你再训练一下就可以解决实际问题了。这就是游戏里需求,也非常大。当然说让它完全替代你的代码不可能,但是你可以用它给你写一些框架性东西或具体的一个小问题,可直接让他写,然后拿过来你试下好不好用,甚至有bug也可以让他改一下。就好像你开发应用一样,你现在去开发操作系统,你除非说国产替代,正常来讲,微软和苹果已把操作系统完全占领,你不可能再打开空间。

2024-07-15 11:37:20 658

原创 LLM大模型-24年最新大语言模型新书!这本LLM大模型黑书你一定要学(附PDF)

1.1 Transformer 的生态系统1.2 使用Transformer 优化NLP模型1.3 我们应该使用哪些资源1.4 本章小结1.5 练习题8.1 文本到文本模型8.2 使用T5 进行文本摘要8.3 使用GPT-3 进行文本摘要8.4 本章小结8.5 练习题。

2024-07-15 10:52:25 1144

原创 科普神文,一次性讲透AI大模型的核心概念

Transformer已经引领了各种尖端的AI应用程序的创建。除了支持像Bard和ChatGPT这样的聊天机器人之外,它还驱动我们移动键盘上的自动完成功能和智能扬声器中的语音识别。然而,它的真正威力在语言之外。它的发明者发现,transformer模型可以识别和预测任何重复的主题或模式。从图片中的像素,使用Dall-E、Midjourney和Stable Diffusion等工具,到计算机代码使用GitHub Copilot等生成器。它甚至可以预测音乐中的音符和蛋白质中的DNA来帮助设计药物分子。

2024-07-13 17:56:18 773

原创 【超算、智算及数据中心行业研究报告 2024】_超算行业

1、超算中心:大国高性能计算底座,新基建重要一环01 超级计算用于处理极端复杂或数据密集型问题• 超级计算,又称高性能计算 (HPC),是计算科学的重要前沿分支,指利用并行工作的多台计算机系统(即超级计算机)的集中式计算资源,处理极端复杂或数据密集型问题。超算能力是衡量一个国家或地区科技核心竞争力和综合国力的重要标志。• 超算算力以每秒浮点运算次数衡量,一般以Petaflops(PFlops)为度量单位。01 新基建等政策驱动超算中心建设快速推进01 11家国家级超算中心概况。

2024-07-13 11:52:59 812

原创 【万亿赛道 !低空经济产业发展深度分析 2024 !】_低空经济行业分析

一、低空经济的概念内涵内涵和特征:低空经济作为战略性新兴产业和未来产业已上升为国家经济工作重点低空经济目前只有半官方定义,部分专家学者、研究机构、有关部门以及地方规划等均给出了各自的理解。

2024-07-13 09:24:13 949

原创 【万亿赛道 !低空经济产业发展深度分析 2024 !】

一、低空经济的概念内涵内涵和特征:低空经济作为战略性新兴产业和未来产业已上升为国家经济工作重点低空经济目前只有半官方定义,部分专家学者、研究机构、有关部门以及地方规划等均给出了各自的理解。

2024-07-12 17:24:31 1182

原创 【超万卡GPU集群关键技术深度分析 2024】_构建10万卡gpu集群的技术挑战

超万卡集群数据量巨大,其中大部分是温冷数据,统筹考虑性能和成本因素,规划普通性能、高性能两类存储集群。面向超万卡集群,考虑到智算中心内部成倍增长的数据交换需求,通过堆叠 CPU资源来处理网络数据的做法无疑是低效且昂贵的,对此,智算中心的计算架构需要转变方向,将原本运行在 CPU、GPU 中的数据处理任务卸载至具有层级化可编程、低时延网络、统一管控等特性的 DPU 上执行,在大幅扩展节点间算力连接能力的同时,释放 CPU、GPU 的算力,降低节点间的 CPU、GPU 协作成本,支撑集群发挥更大的效能。

2024-07-12 11:44:27 1022

原创 【国内超大型智能算力中心建设白皮书 2024】_智算中心算力规划

智算中心建设通过领先的体系架构设计,以算力基建化为主体、以算法基建化为引领、以服务智件化为依托,以设施绿色化为支撑,从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构(一)总体架构图8 智算中心总体架构智能算力中心建设白皮书,重点围绕基础、支撑、功能和目标四大部分,创新性地提出了智算中心总体架构。其中,基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构;支撑部分围绕智算中心算力生产、聚合、调度、释放的作业逻辑展开;功能部分提供算力生产供应、数据开放共享、智能生态

2024-07-12 09:34:39 889

原创 【人工智能大语言模型技术发展研究报告 2024】

人工智能作为引领新一轮科技产业革命的战略性技术和新质生产力重要驱动力,正在引发经济、社会、文化等领域的变革和重塑,2023 年以来,以 ChatGPT、GPT-4 为代表的大模型技术的出台,因其强大的内容生成及多轮对话能力,引发全球新一轮人工智能创新热潮,随着大模型技术演进、产品迭代日新月异,成为科技产业发展强劲动能。大规模的训练和推理需要强大的高性能算力供应,高端AI 芯片是大模型高效训练和应用落地的核心,是决定大模型发展能力高低的关键。

2024-07-11 17:31:59 1133

原创 【在大模型RAG系统中应用知识图谱】_rag知识挂载图示

对于复杂的 RAG 和多跳数据检索的一般场景,如下图所示, 关于RAG的更多信息可以参考《[大模型系列——解读RAG]》。

2024-07-11 12:01:23 438

原创 【一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操(含源码)】

RAG的全称是Retrieval-Augmented Generation,中文翻译为检索增强生成。它是一个为大模型提供外部知识源的概念,这使它们能够生成准确且符合上下文的答案,同时能够减少模型幻觉。

2024-07-11 09:05:57 560

原创 【 2024!深入了解 大语言模型(LLM)微调方法(总结)】

2021年微软提出的 LORA,斯坦福提出的 Prefix-Tuning,谷歌提出的 Prompt Tuning,2022年清华提出的 P-tuning v2、2023年华盛顿大学提出的QLoRA、2024年英伟达提出DoRA等基本上都是属于该范畴)。需要注意的是,与预训练一样,全微调需要足够的内存和计算预算来存储和处理训练过程中的所有梯度、优化器和其他更新组件。其中,大模型微调技术在此过程中起到了非常关键的作用,它提升了模型的生成效率和适应性,使其能够在多样化的应用场景中发挥更大的价值。

2024-07-10 18:15:11 552

原创 【大白话讲清楚:什么是 Langchain 及其核心概念】

想象一下,如果你能让聊天机器人不仅仅回答通用问题,还能从你自己的数据库或文件中提取信息,并根据这些信息执行具体操作,比如发邮件,那会是什么情况?Langchain 正是为了实现这一目标而诞生的。Langchain 是一个开源框架,它允许开发人员将像 GPT-4 这样的大型语言模型与外部的计算和数据源结合起来。目前,它提供了 Python 和 JavaScript(确切地说是 TypeScript)的软件包。上图展示了Langchain的工作原理,这是一个用于提升大型语言模型(LLMs)功能的框架。

2024-07-10 11:35:00 908

原创 【大模型实操 | LoRA、QLoRA微调大模型实战技巧分享,含常见QA解答!】

由于GPU内存的限制,在训练过程中更新整个模型权重成本很高。例如,假设有一个7B参数的语言模型,用一个权重矩阵W表示。在反向传播期间,模型需要学习一个ΔW矩阵,旨在更新原始权重,让损失函数值最小。权重更新如下:如果权重矩阵包含7B个参数,则权重更新矩阵也包含7B个参数,计算矩阵非常耗费计算和内存。如上所示,的分解意味着我们需要用两个较小的LoRA矩阵A和B来表示较大的矩阵。如果A的行数与相同,B的列数与相同,可以将以上的分解记为。(AB是矩阵A和B之间的矩阵乘法结果。这种方法节省了多少内存呢?

2024-07-10 09:14:36 739

原创 【大模型系列——解读RAG】

RAG即检索增强生成,为 LLM 提供了从某些数据源检索到的信息,并基于此修正生成的答案。RAG 基本上是 Search + LLM 提示,可以通过大模型回答查询,并将搜索算法所找到的信息作为大模型的上下文。查询和检索到的上下文都会被注入到发送到 LLM 的提示语中。嵌入式搜索引擎可以通过 Faiss 来实现,向量搜索领域成为了RAG的一个助力。像pinecone 这样的向量数据库可以构建开源搜索索引,为输入文本增加了额外的存储空间,还增加了一些其他工具。关于向量数据库,可以参考解读向量数据库。

2024-07-09 17:52:53 750

原创 【带你全面了解 RAG,深入探讨其核心范式、关键技术及未来趋势】

大型语言模型(LLMs)已经成为我们生活和工作的一部分,它们以惊人的多功能性和智能化改变了我们与信息的互动方式。然而,尽管它们的能力令人印象深刻,但它们并非无懈可击。这些模型可能会产生误导性的 “”,依赖的信息可能,处理特定知识时的深度洞察,同时在推理能力上也有所欠缺。在现实世界的应用中,数据需要不断更新以反映最新的发展,生成的内容必须是透明可追溯的,以便控制成本并保护数据隐私。因此,简单依赖于这些 “黑盒” 模型是不够的,我们需要更精细的解决方案来满足这些复杂的需求。

2024-07-09 12:10:33 707

原创 【基于大模型(LLM)的Agent 应用开发】

这里的Agent 指的是智能体,可以追溯到明斯基的《society of mind》一书。在那本书中,明斯基对Agent的定义有点抽象——“社会中某个个体经过协商后可求得问题的解,这个个体就是agent”。在计算机领域,agent是一种通过传感器感知其环境,并通过执行器作用于该环境的实体,因此,可以把实体定义为一种从感知序列到实体动作的映射。一般认为,Agent是指驻留在某一环境下,能持续自主地发挥作用,具备自主性、反应性、社会性、主动性等特征的计算实体。智能,是Agent 与环境相互作用的涌现属性。

2024-07-09 09:17:13 662

原创 【剑桥 | 发布多模态检索器,赋能多模态大模型RAG应用】

PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。尽管多模态大模型(例如 GPT4-Vision、Gemini 等)展现出了强大的通用图文理解能力,它们在回答需要专业知识的问题时表现依然不尽人意。

2024-07-08 17:24:36 819

原创 【新能源时代!看大模型(LLMs)如何助力汽车自动驾驶!】

青霉素发现之前,科学家们的研究方向是在无菌实验室中不断的试错,旨在希望通过传统的医学方法来解决复杂的问题。然而,一个偶然的事件却改变了事件的发展,苏格兰医生弗莱明忘记关闭培养皿,导致培养皿被霉菌污染。这时,弗莱明注意到了一些奇怪的事情:所有靠近水分的细菌都死了,而其他细菌则幸存下来。那么,

2024-07-08 11:52:14 592

原创 【解读大模型(LLM)的token】

在 LLM 中,token代表模型可以理解和生成的最小意义单位,是模型的基础单元。根据所使用的特定标记化方案,token可以表示单词、单词的一部分,甚至只表示字符。token被赋予数值或标识符,并按序列或向量排列,并被输入或从模型中输出,是模型的语言构件。一般地,token可以被看作是单词的片段,不会精确地从单词的开始或结束处分割,可以包括尾随空格以及子单词,甚至更大的语言单位。token作为原始文本数据和 LLM 可以使用的数字表示之间的桥梁。

2024-07-08 09:27:29 752

原创 【向量数据库|一文全面了解向量数据库的基本概念、原理、算法、选型】

本文主要介绍了向量数据库的原理和实现,包括向量数据库的基本概念、相似性搜索算法、相似性测量算法、过滤算法和向量数据库的选型等等。向量数据库是崭新的领域,目前大部分向量数据库公司的估值乘着 AI 和 GPT 的东风从而飞速的增长,但是在实际的业务场景中,目前向量数据库的应用场景还比较少,抛开浮躁的外衣,向量数据库的应用场景还需要开发者们和业务专家们去挖掘。

2024-07-05 12:12:59 1054

原创 【 2024!深入了解 大语言模型(LLM)微调方法(总结)】

2021年微软提出的 LORA,斯坦福提出的 Prefix-Tuning,谷歌提出的 Prompt Tuning,2022年清华提出的 P-tuning v2、2023年华盛顿大学提出的QLoRA、2024年英伟达提出DoRA等基本上都是属于该范畴)。需要注意的是,与预训练一样,全微调需要足够的内存和计算预算来存储和处理训练过程中的所有梯度、优化器和其他更新组件。其中,大模型微调技术在此过程中起到了非常关键的作用,它提升了模型的生成效率和适应性,使其能够在多样化的应用场景中发挥更大的价值。

2024-07-05 09:37:14 1078

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除