AI-peach桃-CSDN博客

原创大语言模型 MOE 简明实现指南

这篇文章中，我简要实现一下大语言模型的 MOE 模块。MOE 模块位于每个GPT层中，位于注意力模块的后面，每个MOE模块包含若干个MLP模块作为专家。这些专家是稀疏的，也就是每次选择部分来调用，并不会调用全部，从而节省宝贵的算力。首先定义一些常量，通常应该在模型配置文件里面。模块的输入应该是句子中单词的隐藏向量。为了便于测试我直接取了随机数，正常情况下应该是有意义的值。首先需要转换成二维的，便于计算。然后我们需要一个门（定义在__init__

2024-06-26 13:51:49 232

原创吴恩达揭秘：编程Agent如何革新软件开发行业

作为 AI 领域的杰出人物，教授对编程 Agent 的兴起表示了极大的兴趣。他认为，编程 Agent 有潜力通过自动执行繁琐的任务、提高代码质量和加速开发周期来彻底改变软件开发行业。本文将深入探讨吴恩达对编程 Agent 的见解，等关键概念。通过实际案例和深入分析，我们将探索这些技术如何协同工作，使编程 Agent 能够以更高的效率和有效性构建软件。

2024-06-26 12:07:01 940

原创自定义User-Agent：使用Python Requests进行网络请求

requests是一个Python第三方库，用于发送HTTP请求。它简单易用，支持各种HTTP方法，如GET、POST、PUT、DELETE等，并且可以方便地添加请求头、Cookies、查询字符串等。在requests库中，可以通过headers参数来自定义User-Agent。# 定义自定义User-AgentWin64;# 发送GET请求# 打印响应内容。

2024-06-26 12:00:14 806

原创大模型回归实业，少谈梦，多赚钱

大家都知道美国现在AI很火，但是现在火到已经有点看不懂的地步了。苹果前脚在WWDC24上公布了自己在AI上的新进展，隔天市值就上涨了2142亿美元。而以微软为首的美股“Big 7”的市值更是达到史无前例的14万亿，占据标普500的32%。

2024-06-25 15:39:02 668

原创使用随机森林获取特征重要性

随机森林及其应用领域> 随机森林是一种强大的机器学习算法，其基本原理在于通过集成多个决策树来提高整体性能。决策树是一种流程图结构，通过一系列的决策来达到最终目标。而随机森林则是通过构建许多这样的决策树，每个决策树都在某种程度上是独立的，从而提高了模型的稳健性和准确性。这种算法在各种领域都有着广泛的应用。

2024-06-25 11:43:10 692

原创给LLM Agent应用插上视觉模型的翅膀，一文搞懂ONNX如何加载头部姿态评估模型

本文通过介绍ONNX和如何使用onnxruntime加载模型和推理，通过加载头部姿态模型6DRepNet、预处理图像和推理演示了使用onnxruntime的全过程。从我为数不多的测试来看，我个人觉得在图像模糊的时候，对于头部的姿态估算准确度不是很好。本文是一个简单的介绍，主要针对非算法工程师如何也能玩转模型，同时也能方便读者在有需要的时候，可以使用LLM的工具调用能力调用丰富的视觉类小模型。

2024-06-25 10:15:58 641

原创如何看待国产大模型现状？

在人工智能的浪潮中，大模型作为技术的重要分支，正在引领着AI行业的未来发展。而在这一领域，国产大模型正展现出强大的生命力和潜力，成为了国内外关注的焦点。那么，我们如何看待国产大模型的现状呢？

2024-06-24 15:42:01 1468

原创大模型之提示词工程：少样本提示

在学习零样本提示之后，很容易联想到与之对应的少样本提示。零样本提示虽然已经能解决大部分问题，但是在面对一些更复杂的任务的时候，表现并不是很好。而少样本提示可以通过提示词，直接为大模型提供对应的示例，更方便大模型理解我们的想法。

2024-06-24 11:45:33 271

原创人工智能机器学习算法总结偏差和方差

在机器学习中，偏差（Bias）和方差（Variance）是评估模型泛化能力的重要概念。它们描述了模型在训练数据上的表现以及对新数据的适应能力。理想情况下，我们希望模型既有较低的偏差也有较低的方差，这样它就能在训练数据上表现良好，同时对新数据也有较好的泛化能力。我们希望找到一个偏差和方差都较低的模型，即能够很好地拟合训练数据，同时具较好的泛化能力。这需要通过调整模型的复度、增加训练数据、使用正则化等方法来平衡偏差和方差。理解偏差和方差对于选择合适的机器学习模型和调整模型参数至关重要。通俗易懂点说。

2024-06-24 11:09:01 574

原创自然语言处理的算法：从SVM到Attention

自然语言处理（NLP）是计算机科学与人工智能中的一个分支，主要关注于计算机理解和生成人类语言。自然语言处理的主要任务包括语言模型、情感分析、机器翻译、语义角色标注、命名实体识别等。随着深度学习的发展，自然语言处理领域的算法也发生了巨大变化。本文将从支持向量机（SVM）到注意机制（Attention）的算法进行全面介绍。

2024-06-23 12:30:00 563

原创自然语言处理中的特征向量与矩阵分析

自然语言处理（NLP，Natural Language Processing）是人工智能领域的一个重要分支，其主要目标是让计算机能够理解、生成和翻译人类语言。在过去的几十年里，自然语言处理技术得到了巨大的发展，从简单的文本处理到复杂的情感分析、机器翻译等复杂任务，都已经成为可能。然而，自然语言处理的核心挑战仍然在于如何让计算机理解人类语言的复杂性和多样性。在自然语言处理中，特征向量和矩阵分析是一个非常重要的概念和技术，它们在许多自然语言处理任务中发挥着关键作用。

2024-06-22 12:15:00 931

原创大模型：众星云集未来可期

当下科技领域最热的话题，当属大模型。“眼下，世界上各种科技会议，没有不谈人工智能的，谈人工智能没有不谈大模型的。”中国新一代人工智能发展战略研究院执行院长龚克说。如果您对大模型“不明觉厉”，又想知道中国的大模型现状如何、究竟发展到了什么程度，就去国家会展中心（天津）正在举办的世界智能产业博览会逛一逛吧，那里荟萃了中国大模型江湖的一众顶尖高手和众多冉冉升起的新星，上演着浓缩版的“百模大战”，看热闹还能悟门道。通用大模型很“卷”，规模定律依然有效。

2024-06-21 11:55:05 819

原创万字干货！手把手教你如何训练超大规模集群下的大语言模型

大模型这个名字非常直观地表达了其主要特点，那就是“大”。具体量化来说，参数数量大，比如从 LLAMA2 的 70B 到 GPT-3 的 175B，再到 GPT Moe 的 1.8T。其次，数据量大，我们训练一个大模型通常需要达到 T 级别 tokens 的数据量。再者，由于模型尺寸巨大和数据量庞大，随之带来的是巨大的计算量，基本上现在表现良好的大模型都需要 1e24 Flops 级别以上的计算量。那我们为什么需要将模型扩展到如此规模？或者说，为什么模型越大效果越好呢？

2024-06-21 10:48:23 857

原创 SSM 能取代 Transformer 搞出更「牛」的大模型吗？

基于注意力机制的 Transformer 架构和 Scaling Law 是公认推动这一轮 AI 革新的根源，挖掘 Transformer 更多的潜力或将解决目前大模型所面对的诸多局限性问题。近期 CoPE、KAN、Abacus 嵌入等工作均从不同维度拓宽了 Transformer 的能力边界。但在一系列进展中，SSM 与注意力机制可以互补的发现将对 Transformer 的探索推向了一个新的小高潮。

2024-06-21 10:15:37 791

原创 2024年入行大模型是一个好的选择吗？

当我们站在2024年的时间节点上，探讨是否入行大模型，这无疑是一个值得深思且充满机遇的选择。

2024-06-20 14:54:22 594

原创基于 RAG 实现大模型商品智能检索

传统商品检索需要依赖人工解析和构建商品的描述字段，将商品信息存入 ElasticSearch 或数据库，然后通过分词查询结合多重条件（类别或其他属性）检索到匹配的商品。但是在传统检索中，因为分词本身的特点，经常会遇到误匹配的问题，例如：我们检索 "苹果耳机"的时候，往往会出现苹果和耳机的相关商品，导致客户体验效果不佳。为了让检索更人性化，我们可以借助 RAG 技术，在传统分词搜索的基础上融入向量检索的能力，从而获得更贴近人类需求的检索效果。

2024-06-20 10:14:33 391

原创本地基于知识库的大模型的使用教程

选择模型：可以切换模型1. 选择prompt模板，可以修改大模型指令。默认即可。2. temperature：大模型回答的随机性，数值越大，回答的创造性（随机性）越高3. 历史对话轮数：数值越大，上下文关联的历史对话轮数越高，消耗的显存也高。4. \=择知识库：选择要问答的知识库5. 匹配知识条数：匹配的知识库内容个数，大模型将结合匹配的内容回答问题。数据越高，消耗的显存也高。

2024-06-20 09:53:06 390

原创入行大模型，抓住下一个就业风口

大模型技术作为AI领域的新星，正逐渐成为新的就业风口。掌握大模型技术，将为您打开一扇通往成功职业道路的大门。不要犹豫，赶快行动起来，抓住这个充满机遇的就业风口吧！

2024-06-19 17:07:28 620

原创阿里云PAI大模型评测最佳实践

在大模型时代，随着模型效果的显著提升，模型评测的重要性日益凸显。科学、高效的模型评测，不仅能帮助开发者有效地衡量和对比不同模型的性能，更能指导他们进行精准地模型选择和优化，加速AI创新和应用落地。因此，建立一套平台化的大模型评测最佳实践愈发重要。本文为PAI大模型评测最佳实践，旨在指引AI开发人员使用PAI平台进行大模型评测。借助本最佳实践，您可以轻松构建出既能反映模型真实性能，又能满足行业特定需求的评测过程，助力您在人工智能赛道上取得更好的成绩。如何准备和选择评测数据集如何选择适合业务的开源或微调后模型。

2024-06-19 11:42:05 987

原创 LLaMA 3：大模型之战的新序幕

在人工智能的领域中，大模型的竞争愈发激烈，而 LLaMA 3 的出现，无疑拉开了这场大模型之战的新序幕。LLaMA 3 代表着当前自然语言处理技术的前沿水平。它具有强大的语言理解和生成能力，能够处理各式各样复杂的语言任务。无论是文本生成、知识问答还是情感分析，LLaMA 3 都展现出了卓越的表现。与以往的模型相比，LLaMA 3 在规模和性能上都有了显著的提升。其通过大量的数据训练和先进的算法优化，不断突破语言处理的边界。这种进步不仅仅是技术上的突破，更是为人工智能在各个领域的广泛应用奠定了坚实的基础。

2024-06-19 10:01:04 866

2401_85784917的博客