自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 大语言模型 MOE 简明实现指南

这篇文章中,我简要实现一下大语言模型的 MOE 模块。MOE 模块位于每个GPT层中,位于注意力模块的后面,每个MOE模块包含若干个MLP模块作为专家。这些专家是稀疏的,也就是每次选择部分来调用,并不会调用全部,从而节省宝贵的算力。首先定义一些常量,通常应该在模型配置文件里面。模块的输入应该是句子中单词的隐藏向量。为了便于测试我直接取了随机数,正常情况下应该是有意义的值。首先需要转换成二维的,便于计算。然后我们需要一个门(定义在__init__

2024-06-26 13:51:49 232

原创 吴恩达揭秘:编程Agent如何革新软件开发行业

作为 AI 领域的杰出人物,教授对编程 Agent 的兴起表示了极大的兴趣。他认为,编程 Agent 有潜力通过自动执行繁琐的任务、提高代码质量和加速开发周期来彻底改变软件开发行业。本文将深入探讨吴恩达对编程 Agent 的见解,等关键概念。通过实际案例和深入分析,我们将探索这些技术如何协同工作,使编程 Agent 能够以更高的效率和有效性构建软件。

2024-06-26 12:07:01 940

原创 自定义User-Agent:使用Python Requests进行网络请求

requests是一个Python第三方库,用于发送HTTP请求。它简单易用,支持各种HTTP方法,如GET、POST、PUT、DELETE等,并且可以方便地添加请求头、Cookies、查询字符串等。在requests库中,可以通过headers参数来自定义User-Agent。# 定义自定义User-AgentWin64;# 发送GET请求# 打印响应内容。

2024-06-26 12:00:14 806

原创 大模型回归实业,少谈梦,多赚钱

大家都知道美国现在AI很火,但是现在火到已经有点看不懂的地步了。苹果前脚在WWDC24上公布了自己在AI上的新进展,隔天市值就上涨了2142亿美元。而以微软为首的美股“Big 7”的市值更是达到史无前例的14万亿,占据标普500的32%。

2024-06-25 15:39:02 668

原创 使用随机森林获取特征重要性

随机森林及其应用领域> 随机森林是一种强大的机器学习算法,其基本原理在于通过集成多个决策树来提高整体性能。决策树是一种流程图结构,通过一系列的决策来达到最终目标。而随机森林则是通过构建许多这样的决策树,每个决策树都在某种程度上是独立的,从而提高了模型的稳健性和准确性。这种算法在各种领域都有着广泛的应用。

2024-06-25 11:43:10 692

原创 给LLM Agent应用插上视觉模型的翅膀,一文搞懂ONNX如何加载头部姿态评估模型

本文通过介绍ONNX和如何使用onnxruntime加载模型和推理,通过加载头部姿态模型6DRepNet、预处理图像和推理演示了使用onnxruntime的全过程。从我为数不多的测试来看,我个人觉得在图像模糊的时候,对于头部的姿态估算准确度不是很好。本文是一个简单的介绍,主要针对非算法工程师如何也能玩转模型,同时也能方便读者在有需要的时候,可以使用LLM的工具调用能力调用丰富的视觉类小模型。

2024-06-25 10:15:58 641

原创 如何看待国产大模型现状?

在人工智能的浪潮中,大模型作为技术的重要分支,正在引领着AI行业的未来发展。而在这一领域,国产大模型正展现出强大的生命力和潜力,成为了国内外关注的焦点。那么,我们如何看待国产大模型的现状呢?

2024-06-24 15:42:01 1468

原创 大模型之提示词工程:少样本提示

在学习零样本提示之后,很容易联想到与之对应的少样本提示。零样本提示虽然已经能解决大部分问题,但是在面对一些更复杂的任务的时候,表现并不是很好。而少样本提示可以通过提示词,直接为大模型提供对应的示例,更方便大模型理解我们的想法。

2024-06-24 11:45:33 271

原创 人工智能机器学习算法总结偏差和方差

在机器学习中,偏差(Bias)和方差(Variance)是评估模型泛化能力的重要概念。它们描述了模型在训练数据上的表现以及对新数据的适应能力。理想情况下,我们希望模型既有较低的偏差也有较低的方差,这样它就能在训练数据上表现良好,同时对新数据也有较好的泛化能力。我们希望找到一个偏差和方差都较低的模型,即能够很好地拟合训练数据,同时具较好的泛化能力。这需要通过调整模型的复度、增加训练数据、使用正则化等方法来平衡偏差和方差。理解偏差和方差对于选择合适的机器学习模型和调整模型参数至关重要。通俗易懂点说。

2024-06-24 11:09:01 574

原创 自然语言处理的算法:从SVM到Attention

自然语言处理(NLP)是计算机科学与人工智能中的一个分支,主要关注于计算机理解和生成人类语言。自然语言处理的主要任务包括语言模型、情感分析、机器翻译、语义角色标注、命名实体识别等。随着深度学习的发展,自然语言处理领域的算法也发生了巨大变化。本文将从支持向量机(SVM)到注意机制(Attention)的算法进行全面介绍。

2024-06-23 12:30:00 563

原创 自然语言处理中的特征向量与矩阵分析

自然语言处理(NLP,Natural Language Processing)是人工智能领域的一个重要分支,其主要目标是让计算机能够理解、生成和翻译人类语言。在过去的几十年里,自然语言处理技术得到了巨大的发展,从简单的文本处理到复杂的情感分析、机器翻译等复杂任务,都已经成为可能。然而,自然语言处理的核心挑战仍然在于如何让计算机理解人类语言的复杂性和多样性。在自然语言处理中,特征向量和矩阵分析是一个非常重要的概念和技术,它们在许多自然语言处理任务中发挥着关键作用。

2024-06-22 12:15:00 931

原创 大模型:众星云集 未来可期

当下科技领域最热的话题,当属大模型。“眼下,世界上各种科技会议,没有不谈人工智能的,谈人工智能没有不谈大模型的。”中国新一代人工智能发展战略研究院执行院长龚克说。如果您对大模型“不明觉厉”,又想知道中国的大模型现状如何、究竟发展到了什么程度,就去国家会展中心(天津)正在举办的世界智能产业博览会逛一逛吧,那里荟萃了中国大模型江湖的一众顶尖高手和众多冉冉升起的新星,上演着浓缩版的“百模大战”,看热闹还能悟门道。通用大模型很“卷”,规模定律依然有效。

2024-06-21 11:55:05 819

原创 万字干货!手把手教你如何训练超大规模集群下的大语言模型

大模型这个名字非常直观地表达了其主要特点,那就是“大”。具体量化来说,参数数量大,比如从 LLAMA2 的 70B 到 GPT-3 的 175B,再到 GPT Moe 的 1.8T。其次,数据量大,我们训练一个大模型通常需要达到 T 级别 tokens 的数据量。再者,由于模型尺寸巨大和数据量庞大,随之带来的是巨大的计算量,基本上现在表现良好的大模型都需要 1e24 Flops 级别以上的计算量。那我们为什么需要将模型扩展到如此规模?或者说,为什么模型越大效果越好呢?

2024-06-21 10:48:23 857

原创 SSM 能取代 Transformer 搞出更「牛」的大模型吗?

基于注意力机制的 Transformer 架构 和 Scaling Law 是公认推动这一轮 AI 革新的根源,挖掘 Transformer 更多的潜力或将解决目前大模型所面对的诸多局限性问题。近期 CoPE、KAN、Abacus 嵌入等工作均从不同维度拓宽了 Transformer 的能力边界。但在一系列进展中,SSM 与注意力机制可以互补的发现将对 Transformer 的探索推向了一个新的小高潮。

2024-06-21 10:15:37 791

原创 2024年入行大模型是一个好的选择吗?

当我们站在2024年的时间节点上,探讨是否入行大模型,这无疑是一个值得深思且充满机遇的选择。

2024-06-20 14:54:22 594

原创 基于 RAG 实现大模型商品智能检索

传统商品检索需要依赖人工解析和构建商品的描述字段,将商品信息存入 ElasticSearch 或数据库,然后通过分词查询结合多重条件(类别或其他属性)检索到匹配的商品。但是在传统检索中,因为分词本身的特点,经常会遇到误匹配的问题,例如:我们检索 "苹果耳机"的时候,往往会出现苹果和耳机的相关商品,导致客户体验效果不佳。为了让检索更人性化,我们可以借助 RAG 技术,在传统分词搜索的基础上融入向量检索的能力,从而获得更贴近人类需求的检索效果。

2024-06-20 10:14:33 391

原创 本地基于知识库的大模型的使用教程

选择模型:可以切换模型1. 选择prompt模板,可以修改大模型指令。默认即可。2. temperature:大模型回答的随机性,数值越大,回答的创造性(随机性)越高3. 历史对话轮数:数值越大,上下文关联的历史对话轮数越高,消耗的显存也高。4. \=择知识库:选择要问答的知识库5. 匹配知识条数:匹配的知识库内容个数,大模型将结合匹配的内容回答问题。数据越高,消耗的显存也高。

2024-06-20 09:53:06 390

原创 入行大模型,抓住下一个就业风口

大模型技术作为AI领域的新星,正逐渐成为新的就业风口。掌握大模型技术,将为您打开一扇通往成功职业道路的大门。不要犹豫,赶快行动起来,抓住这个充满机遇的就业风口吧!

2024-06-19 17:07:28 620

原创 阿里云PAI大模型评测最佳实践

在大模型时代,随着模型效果的显著提升,模型评测的重要性日益凸显。科学、高效的模型评测,不仅能帮助开发者有效地衡量和对比不同模型的性能,更能指导他们进行精准地模型选择和优化,加速AI创新和应用落地。因此,建立一套平台化的大模型评测最佳实践愈发重要。本文为PAI大模型评测最佳实践,旨在指引AI开发人员使用PAI平台进行大模型评测。借助本最佳实践,您可以轻松构建出既能反映模型真实性能,又能满足行业特定需求的评测过程,助力您在人工智能赛道上取得更好的成绩。如何准备和选择评测数据集如何选择适合业务的开源或微调后模型。

2024-06-19 11:42:05 987

原创 LLaMA 3:大模型之战的新序幕

在人工智能的领域中,大模型的竞争愈发激烈,而 LLaMA 3 的出现,无疑拉开了这场大模型之战的新序幕。LLaMA 3 代表着当前自然语言处理技术的前沿水平。它具有强大的语言理解和生成能力,能够处理各式各样复杂的语言任务。无论是文本生成、知识问答还是情感分析,LLaMA 3 都展现出了卓越的表现。与以往的模型相比,LLaMA 3 在规模和性能上都有了显著的提升。其通过大量的数据训练和先进的算法优化,不断突破语言处理的边界。这种进步不仅仅是技术上的突破,更是为人工智能在各个领域的广泛应用奠定了坚实的基础。

2024-06-19 10:01:04 866

原创 国外知名的AI大模型

国外在AI大模型领域拥有多个知名的模型,这些模型在技术先进性、应用广泛性和影响力方面都处于领先地位。以下是一些国外知名的AI大模型。GPT-4是目前OpenAI推出的最新多模态预训练大模型,以其强大的语言理解和生成能力而闻名。GPT-3.5和GPT-3也是该系列中极具影响力的模型,广泛应用于聊天机器人、文本生成、内容理解等多个领域。Claude模型由Anthropic公司开发,该公司由OpenAI的前员工成立。Claude模型在多项评测中表现出色,尤其是在与GPT-4竞争的排行榜中位列前茅。

2024-06-18 22:13:17 1049

原创 大模型面试必备五大技巧:让你在AI领域脱颖而出!

在这个充满机遇与挑战的时代,掌握大模型技术的人才备受瞩目。然而,如何在大模型面试中脱颖而出,成为面试官心目中的理想人选呢?本文将为你揭示大模型面试必备的五大技巧,助你成功迈进AI领域的大门!

2024-06-18 20:14:26 678

原创 如何手撸一个自有知识库的 RAG 系统

RAG 通常指的是"Retrieval-Augmented Generation",即“检索增强的生成”。这是一种结合了检索(Retrieval)和生成(Generation)的机器学习模型,通常用于自然语言处理任务,如文本生成、问答系统等。我们通过一下几个步骤来完成一个基于京东云官网文档的 RAG 系统数据收集建立知识库向量检索提示词与模型。

2024-06-18 16:40:11 749

原创 Elasticsearch:智能 RAG,获取周围分块

本节在 Elasticsearch 中构建和执行自定义搜索查询,利用结合向量和基于文本的搜索方法的混合方法来提高搜索准确性和相关性。使用的具体示例是关于“Nimbus 2000” 的用户查询。关键步骤定义用户查询:将用户查询指定为“what is a nimbus 2000”。设置提升因子knn_boost_factor:用于放大 vector-based 的搜索组件的重要性的值。text_expansion_boost:用于修改 text-based 的搜索组件的权重的值。构建查询。

2024-06-18 15:48:44 980

原创 LLM微调方法(Efficient-Tuning)六大主流方法:思路讲解&优缺点对比[P-tuning、Lora、Prefix tuing等]

自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练,并适应特定任务或领域。随着我们预训练更大的模型,全面微调(即重新训练所有模型参数)变得不太可行。以GPT-3 175B为例,部署独立的微调模型实例,每个实例都有175B参数,成本是极其昂贵的。我们提出了低秩适应(Low-Rank Adaptation,简称LoRA),该方法冻结预训练模型的权重,并在Transformer架构的每一层中注入可训练的低秩分解矩阵,从而大大减少了下游任务的可训练参数数量。

2024-06-17 22:34:04 1040

原创 Agent开发+大模型微调,真的能让IT工程师薪资再起飞一次吗?

短短一年间,LLaMA,Mistral,ChatGLM,Grok等等大模型纷纷开源,相关开发与微调技术也在迅速迭代,RAG,LangChain,DeepSpeed,Megatron-LLM等框架的风靡,LoRA,QLoRA,Flash Attention等微调技术的发展,模型压缩,模型蒸馏,模型部署等全工作流的优化,大模型的技术发展可以说是日新月异,几乎每天都有新的惊喜。

2024-06-17 20:49:52 2486

原创 Spring AI 接入OpenAI实现文字转语音、语音转文字、翻译

本篇文章根据官方文章对配置参数进行简单的说明,并提供了简单的实现示例。并未对tts、whisper模型的实现原理进行说明,待个人对这部分知识补齐之后在做补充。

2024-06-17 17:14:32 1095

原创 一文看懂人工智能、机器学习、深度学习是什么、有什么区别!

人工智能(AI),简而言之,是让机器模仿人类的认知功能,如学习、解决问题和理解语言的科学和工程。AI旨在创造出能够执行任务且在某些情况下甚至超越人类能力的智能系统。机器学习是AI的一个分支,它允许软件应用程序变得更加精确地预测结果而无需显式编程。通过分析数据和识别模式,机器学习算法可以学习其执行任务的指令。2.1.1 从数据中学习的算法机器学习算法通过训练过程从提供的数据集中学习,并根据学习到的数据模式做出决策或预测。2.1.2 与传统编程的区别在传统编程中,程序员编写规则来处理数据并产生输出。

2024-06-17 16:45:08 523

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除