AI悲伤小熊-CSDN博客

原创精打细算用好 LLMs ：LLM 落地应用成本及响应延迟优化

高成本和延迟是将大语言模型应用于生产环境中的主要障碍之一，二者均与提示词信息的体量（prompt size）紧密相连。鉴于大语言模型（LLM）展现出极强的广泛适用性，不少人视其为解决各类问题的灵丹妙药。通过与诸如检索增强生成技术（RAG）及 API 调用等在内的工具整合，并配以精细的指导性提示词，LLM 时常能展现出逼近人类水平的工作能力。

2024-06-26 10:00:46 427

原创 Netflix 机器学习科学家的提示词优化经验分享

得益于大语言模型基于文本对话的简单交互界面，使用它们已不再是专业人士（数据科学家或机器学习工程师（MLE））的“私房菜”。普通大众只要掌握一定的语言能力，就可以直接与这些模型对话交互，借助它们的能力解决较为复杂的问题。不过，在使用 LLM 解决问题时，我们得到的结果很大程度上取决于提供给模型的文本提示词。由于这个原因，提示词工程（通过大量的实证试验和反复优化，指导如何为特定任务设计高质量的prompt）变得极其受欢迎和具有影响力，行业目前已经积累了诸多有效的技术手段和优秀的实践方法。

2024-06-26 09:59:45 262

原创 Advanced RAG 08：使用 Self-RAG 打造高质量、可追溯的 RAG System

我们可以看到，第一个 query 不需要执行检索操作，而第二个 query 已进行了检索操作并进行了输出内容的评估。理解测试代码的关键在于弄清楚类 SelfRAGQueryEngine\[6\] 的实现，现在我们来深入探讨一下这个类。

2024-06-26 09:57:53 703

原创初学者怎么入门大语言模型？（入门必读)

在数字化浪潮的推动下，人工智能（AI）技术日新月异，大语言模型作为其中的佼佼者，正逐渐改变我们与世界的交互方式。对于初学者而言，如何入门这一前沿领域，感受其带来的无限可能呢？接下来，就让我们一起踏上这场探索之旅。

2024-06-25 11:54:20 700

原创【机器学习与大模型】开源大模型和闭源大模型：技术发展与社会责任的平衡点

人工智能技术的飞速发展使得大模型成为了当前科技领域的热点之一。在这一领域，开源大模型和闭源大模型作为两种不同的发展路径备受关注。开源大模型强调共享和透明，而闭源大模型则更注重商业价值和知识保护。如何平衡技术发展和社会责任已成为一个亟待解决的问题。

2024-06-25 10:18:47 779

原创详解大型语言模型的基石: 词嵌入（Word Embedding）以及各种词嵌入方法的优劣

词嵌入是大型语言模型的关键构建块。对于不熟悉的人来说，大型语言模型 (LLM) 由几个关键构建块组成，使它们能够高效地处理和理解自然语言数据。大型语言模型 (LLM) 是一种人工智能模型，它基于大量文本数据集进行训练。该数据集可以是任何内容，从书籍和文章到网站和社交媒体帖子。LLM 学习数据集中单词、短语和句子之间的统计关系，从而使其能够生成与其训练文本相似的文本。LLM 通常使用 Transformer 架构构建。Transformer 是一种非常适合自然语言处理任务的神经网络。

2024-06-25 09:31:58 1129

原创解锁未来：大模型在研发运营领域的革命性应用

在数字化浪潮的推动下，各行各业都在寻求更高效、更智能的解决方案来推动业务发展。。今天，就让我们一起探讨大模型在研发运营领域的革命性应用，以及它如何助力企业解锁未来。

2024-06-24 11:52:20 1983

原创人工智能机器学习算法总结支持向量机(SVM)(用人话讲清楚)

支持向量机（Support Vector Machine, SVM）是一种广泛应用于模式识别、分类以及回归问题的监督学习算法。它属于一种监督学习模型，其基本思想是在特征空间中寻找一个最优的分割超平面，以此来区分不同的类别。对于一个二元分类问题，Hinge损失函数可以定义为：yyy 是真实标签，通常取值为+1+1+1或−1-1−1。f(x)f(x)f(x) 是模型预测的分数，即决策函数的输出，f(x)=w⋅x+bf(x) = w \cdot x + bf(x)=w⋅x+b。www 是超平面的法向量。

2024-06-24 11:21:04 904

原创利用大语言模型(LLM)探索文本分类

在快速发展的自然语言处理 (NLP) 领域，大型语言模型 (LLM) 正在开辟新天地，为古老的文本分类难题提供创新方法。这项任务涉及为文本分配预定义类别，是从情绪分析和垃圾邮件检测到内容分类等各种应用的基础。随着 LLM 成为焦点，它们带来了令人兴奋的机会和独特的挑战。让我们通过 LLM 的视角深入探究文本分类的世界。

2024-06-24 10:49:11 448

原创超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

DynRefer 通过模拟人类视觉认知过程，显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制，DynRefer 能够以单个模型同时完成区域识别、区域属性检测和区域字幕生成（region-level captioning）任务，并在上述任务都取得 SOTA 性能。其中在 RefCOCOg 数据集的 region-level captioning 任务上取得了 115.7 CIDEr，显著高于 RegionGPT，GlaMM，Osprey，Alpha-CLIP 等 CVPR 2024 的方法。

2024-06-23 10:15:00 573

原创使用 Llama 3 开源和 Elastic 构建 RAG

这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。现在让我们转到第二种方法，该方法使用 Llama3 作为本地 LLM，但我们使用 Elastic 的 ELSER v2 来生成嵌入并进行语义搜索。正如我们之前介绍的那样，这是在 Ollama 的帮助下完成的。

2024-06-22 11:00:00 819

原创大模型的另一片蓝海

起初，ChatGPT证明了大模型的能力，彼时行业人士提出，未来AI大模型的能力会像水电一样，随取随用。同时，也有人提出，大模型会成为未来互联网竞争的门槛。打个比方来说，大模型之于AI行业，犹如操作系统之于互联网产业，是不折不扣的“基础设施”，无论是短期红利还是长期前景，其全新的交互形式都会掀起一次新的生产力革命。而后，面对“谁会为闲聊的玩具买单”这样的灵魂拷问，行业掀起了垂直大模型的热潮。彼时行业认识到，过热的大模型赛道虹吸了过多本该投放于应用层的资源，“重复造轮子”的问题拖累了应用层的木桶板。

2024-06-21 11:27:23 864

原创 AI新时代——【深度学习】驱动的【AIGC大模型】与【机器学习】的创新融合

在当今的科技时代，人工智能（AI）已成为推动各行业变革的重要力量。从自动驾驶汽车到智能语音助手，AI技术正在改变我们生活和工作的方方面面。作为AI的核心，机器学习（ML）和深度学习（DL）技术不断取得突破。而近年来，AIGC（AI Generated Content）大模型的出现，更是为内容生成领域带来了前所未有的创新。

2024-06-21 10:21:19 966

原创 AI大模型学习涉及理论、技术和应用多个方面的探索

1. **计算力和硬件优化**：大模型学习需要大量计算资源，如GPU和TPU，研究如何优化这些硬件以及分布式计算技术是关键。 2. **模型优化和压缩**：大模型需要有效的优化和压缩技术，以降低计算成本和内存占用，同时保持性能。 3. **自动化机器学习（AutoML）**：自动搜索模型架构、超参数优化和模型选择的技术，对大模型学习尤为重要。

2024-06-21 09:18:45 649

原创 Spring AI：简化 Java 与大型语言模型的集成

前段时间，我用Python不到一百行代码就集成了LLM大模型，效果还挺好。考虑到公司有不少用Java的同事，我想，不妨也用Java试试看，效果会怎样呢？带着这个念头，我查阅了一些Java的资料，没想到竟然真的发现了支持集成LLM的Java框架。趁着一趟将近4个小时的高铁旅途，我就把这个入门步骤写出来了。今年4月17日，Spring官方宣布Spring AI已经可以在Spring Initializr上使用了。这个新工具简化了与AI的交互方式，显著降低了将LLM模型集成到Java项目中的学习难度。

2024-06-20 18:03:50 906 1

原创大型语言模型的快速发展：解决数学难题

这种创新的方法显著增强了LLM的解决问题能力。最近，中国的一个AI实验室进行的实验表明，当LLM与复杂算法结合时，可以在解决数学问题方面超越最先进的模型。整合了Q* MCTSr与llama-3-8B的混合模型在GSM8K基准测试中取得了96.66%的成功率，在更具挑战性的GSM-Hard基准测试中取得了45.49%的成功率。作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

2024-06-20 18:02:33 744 1

原创 LLaMA 开放高效基础语言模型

这篇文章介绍了一个名为LLaMA的新型基础语言模型系列，这些模型由Meta AI开发，包含从7亿到65亿参数不等的多个版本。LLaMA模型完全使用公开可用的数据集进行训练，不依赖于私有或难以获取的数据集。研究表明，通过在更多的数据上训练，而不是仅仅增加模型大小，可以在给定的计算预算下实现更好的性能。特别是，LLaMA-13B在多数基准测试中超过了GPT-3（175B参数），而65B参数版本的LLaMA与Chinchilla-70B和PaLM-540B等顶尖模型具有竞争力。

2024-06-20 18:01:23 896

原创大语言模型中上下文窗口理解和实现原理

上下文窗口就像是语言模型在阅读和写作时使用的一个“记忆窗口”。想象一下你在读一本书的时候，为了理解某个句子，你可能需要回顾前面的一两句话来抓住它们之间的联系。同样，语言模型在预测或生成文本时，也需要查看前面的一定数量的词元或文本片段，这个范围就是上下文窗口。用大白话说，就是在大模型对话中，将你要提前问的话和之前提问的话都发给大模型，更能让大模型分析出你提问时候需要的具体答案。上下文窗口的大小对于模型来说非常关键。如果窗口太小，模型可能会错过重要的上下文信息，导致理解错误或生成不连贯的文本。

2024-06-20 17:59:04 821

原创大型语言模型在预训练中如何获取事实知识

一篇非常有趣的论文，题为《How Do Large Language Models Acquire Factual Knowledge During Pretraining?这篇论文揭示了AI训练中的一些引人入胜的方面，特别是数据质量在模型知识获取中的关键作用。

2024-06-20 17:54:15 781 1

原创向量数据库的崛起：理解向量搜索和RAG

向量是一个具有大小和方向的对象，表示为定义其维度的数字数组。例如，3D空间中的向量[3, -1, 4]和[-2, 3, 1]展示了实体之间的关系。向量在ML中用于将不同的数据类型转换为称为嵌入的数字表示。

2024-06-20 17:49:59 547

原创一个大模型是如何被炼出来的？

大家日常都会接触到不少大模型和AI工具，有考虑过他们是如何做的吗？知道原理，对于我们使用大模型和调整方法很有帮助。在大语言模型（Large Language Model，LLM）中，无监督学习、有监督学习和强化学习是机器学习的三个组成部分，也是训练一个大模型的三个基础阶段。他们各自扮演着不同的角色，并应用于不同的训练阶段和任务中。

2024-06-20 10:36:00 606

原创基于 RAG 实现大模型商品智能检索

传统商品检索需要依赖人工解析和构建商品的描述字段，将商品信息存入 ElasticSearch 或数据库，然后通过分词查询结合多重条件（类别或其他属性）检索到匹配的商品。但是在传统检索中，因为分词本身的特点，经常会遇到误匹配的问题，例如：我们检索 "苹果耳机"的时候，往往会出现苹果和耳机的相关商品，导致客户体验效果不佳。为了让检索更人性化，我们可以借助 RAG 技术，在传统分词搜索的基础上融入向量检索的能力，从而获得更贴近人类需求的检索效果。

2024-06-20 09:54:46 304

原创【机器学习】Transformer模型大小与性能探究

在人工智能和机器学习的领域里，模型的大小与性能之间的关系一直是研究人员关注的焦点。然而，最近的研究却揭示了一个有趣的现象：增加Transformer模型的大小并不总是会带来性能的提升。这一现象挑战了传统的经验标度定律，引发了我们对模型优化和泛化能力的深入思考。

2024-06-20 09:27:03 879

原创 2024年学习大模型有“钱”途吗？？？

随着科技的飞速发展，人工智能领域已成为全球瞩目的焦点，而大模型技术更是其中的明星技术。在即将到来的2024年，学习大模型不仅具有深远的战略意义，更将成为您职业发展道路上的一大亮点。那么，为何说学习大模型是您不容错过的机遇呢？接下来，让我们一起探讨其中的原因。

2024-06-19 16:00:12 816

原创智慧之选：开源与闭源大模型的未来探索

在当前人工智能领域，大模型的快速发展引起了广泛关注。无论是开源大模型还是闭源大模型，各自都有其独特的优势和劣势。为了更深入地探讨哪一方更具前景，我们将从数据隐私、商业应用以及社区参与三个方向进行详细分析。

2024-06-19 11:24:06 996

原创 AI 大模型在穿戴设备健康中的心率深度融合

AI 大模型在穿戴设备健康中的心率深度融合是指利用人工智能技术中的大模型，结合穿戴设备采集到的心率数据进行深度学习和分析，以实现更精准、更可靠的健康监测与分析。这种融合可以帮助用户更好地了解自己的健康状况，及时发现异常情况并采取相应措施。：利用穿戴设备采集用户的心率数据，并结合其他生理参数如运动情况、睡眠质量等进行综合监测。：对采集到的数据进行预处理，包括数据清洗、去噪、特征提取等。：选择合适的深度学习模型，如卷积神经网络（CNN）、循环神经网络（RNN）等，用于对心率数据进行分析和预测。

2024-06-19 09:33:32 633

原创 LLM大语言模型第一章学习

答：基座模型：通用的、大规模训练的模型，具有广泛适应性的模型。关键词：基础模型，多任务能力，节省时间和计算资源举例：openAI的GPT-4可视为基座模型，具有广泛的应用能力，微调之后，可以应用于在具体的场景中。答：关键词：规模巨大；’预训练和微调；上下文感知；多模态支持；高计算资源答：RAG（retrieval-augmented generation）检索增强生成。retrieval 计算机中的检索；找回取回；augment 增加，加强关键词：信息检索；后模型生成；更多细节；

2024-06-18 21:54:31 741

原创大模型的未来在哪里？

在这场battle里，大模型向着规模极致化的方向发展。那么如何衡量大模型的能力，是一个绕不开的话题。衡量大模型能力的关键要素是，参数的规模和与细分行业结合对接的软硬件协同能力。我们在各种新闻中经常可以看到，机构或者是企业用数据集或者是参数规模，以及跑分来彰显自己的模型水平。参数的规模决定了预训练模型有多大。参数越大一般来说意味着大模型具备更多的能力，泛化性、通用性也更加强。成功的大模型背后，还需要大规模分布式训练、并行计算、软硬件协同优化等能力。

2024-06-18 17:19:18 573

原创【大模型】基于AI和全球化进程的权衡：开源大模型与闭源大模型

实际上关于开源or闭源，一直以来都是颇有争议的话题，人们争执于数据的隐私性和共享性，到底哪一方能获得的收益更大。而对于开源与闭源哪个更好实际上也就是说是隐私更好还是公开更好。是想要共享这个世界？还是想要独自打怪升级？这取决于你自己。但是基于AI和全球化进程的权衡，往往有时候你不得不在遵循自己的同时顺应时代的潮流，那么在这个环境下，究竟是开源——共享，还是闭源——内部使用更好呢？首先我们还是对大模型以及开源闭源进行一定的分析。大模型是指具有大规模参数和复杂计算结构的机器学习模型。通常基于深度学习技术。

2024-06-18 15:57:00 768

2401_85779703的博客