顺其自然~-CSDN博客

转载大语言模型训练数据集概览

在人工智能领域，构建强大的AI系统的关键步骤之一是大规模的语言模型预训练。为了实现这一目标，需要大量且多样化的训练数据。以下是对目前常用于训练大语言模型的数据集的整理与概述。

2024-09-23 15:25:35 194

转载自回归模型

其中： c是常数项；被假设为平均数等于0，标准差等于的随机误差值；被假设为对于任何的t都不变。文字叙述为：X的期望值等于一个或数个落后期的线性组合，加常数项，加随机误差。向量自回归模型是AR模型的推广。这个概念应当区别于金融风险管理的VaR模型。VaR模型是用于衡量市场风险和信用风险的大小，辅助金融机构进行风险管理和监管部门有效监管的工具。

2024-09-23 14:42:57 99

核心组件就是上面所提到的Self-Attention和Feed Forward Networks，但还有很多其他细节，接下来我们就开始逐个结构的来解读Transformer。1. 有监督模型向半监督甚至无监督方向发展数据的规模的增长速度远远超过了数据的标注速度，这也就导致了大量无标签数据的产生。这些无标签的数据并非没有价值，相反，如果找到合适的“炼金术”，将可以从这些海量的数据中获取意想不到的价值。如何利用上这些无标签的数据来改善任务的表现变成了一个越来越无法轻视的问题。

2024-09-23 09:20:39 109

原创 transformer中同一个输入为什么要分成QKV

Q（Query）代表查询，用于在序列中“提问”，寻找与当前位置相关的信息。K（Key）代表键，用于存储序列中每个位置的信息，供Q进行查询时使用。V（Value）代表值，包含了实际的信息内容，这些信息将根据Q和K的相似度（注意力权重）进行加权求和。在注意力机制中，QKV的分离使得模型能够动态地聚焦于输入序列中与当前处理位置最相关的部分，从而捕捉序列数据中的复杂依赖关系。

2024-09-23 08:41:59 259

原创 transformer中的编码器如何训练

编码器的训练过程通常是在一个更大的神经网络模型（如自编码器）的上下文中进行的。

2024-09-23 08:38:13 164

转载 Transformer - K, Q, V向量

在Transformer模型中，Q（Query）、K（Key）和V（Value）这三个向量是注意力机制（Attention Mechanism）中的核心概念。

2024-09-23 08:34:21 25

转载 NLP-文本表示：One-Hot、BOW、TF-IDF、N-Gram

One-Hot 编码，又称 “独热编码”，是比较常用的文本特征提取方法。这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，只有一个维度的值为 1，这个向量就代表了当前的词，其他元素为 0。构造一个字典，Dictionary = {1:“我”, 2:“爱”, 3:“爸爸”, 4:“妈妈”, 5:“中国”}

2024-09-20 18:26:17 75

原创自回归语言建模

自回归语言模型是一种基于序列数据的概率分布，通过建模当前词语与前面已生成词语的条件概率来预测下一个词语的统计模型。其核心思想是根据已生成的文本序列来预测下一个词语的概率分布，并依此不断生成后续的文本，直到形成完整的序列。

2024-09-20 17:53:32 270

原创自编码介绍

自编码（Autoencoder）是一种无监督学习的神经网络模型，它通过将输入数据编码为潜在空间表示，并通过解码器将其重建回原始输入，从而实现数据的压缩和解压缩过程。自编码器的基本结构包括编码器和解码器两部分，它们共同工作以学习输入数据的有效表示。

2024-09-20 17:42:57 359

原创训练大语言模型的预料是成对出现的吗

例如，在文本摘要任务中，我们可以将长文本作为编码器的输入，并训练解码器生成该文本的摘要。在不成对出现的语料情况下，即没有明确的源语言到目标语言的对应句子对时，我们通常不会直接以传统的机器翻译方式（如编码器-解码器架构）来训练模型。编码器（如果有的话）可能不是必需的，或者它可能以某种方式辅助解码器，但主要的学习信号来自解码器生成的文本与目标文本（通常是输入文本的一个或多个时间步之后的词）之间的比较。在大多数情况下，大语言模型的预训练阶段会接触到大量未标记的文本数据，这些数据并不一定是成对出现的。

2024-09-20 17:37:56 415

原创 transformer编码器和解码器如何配合使用

Transformer模型中的编码器和解码器通过精心设计的机制密切配合，以完成序列到序列（Seq2Seq）的任务，如机器翻译、文本摘要等。

2024-09-20 17:23:14 657

原创大语言模型训练时需要将数据集中的文章拆成句子吗

在训练大语言模型（LLM）时，是否需要将数据集中的文章拆分成句子，是一个涉及多个因素的决策过程。

2024-09-20 11:37:38 262

转载什么是指令微调（LLM）

经过大规模数据预训练后的语言模型已经具备较强的模型能力，能够编码丰富的世界知识，但是由于预训练任务形式所限，这些模型更擅长于文本补全，并不适合直接解决具体的任务。指令微调是相对“预训练”来讲的，预训练的时候是使用大量无标注的文本，让模型每次都预测下一个字符的方式来训练。而指令微调也可以叫“监督微调”，也就是对于输入文本有标准答案，用标准答案来训练模型。一般预训练完毕后就要进行指令微调，经过指令微调后，大语言模型能够展现出较强的指令遵循能力，可以通过零样本学习的方式解决多种下游任务。

2024-09-19 17:05:11 61

转载神经机器翻译数据集WMT预处理流程

神经机器翻译（Neural Machine Translation，NMT）借助深度神经网络对不同语言的文本进行翻译，本文主要介绍机器翻译数据集WMT16 en-de的预处理过程。机器翻译。

2024-09-19 15:26:05 67

转载新媒体介绍

新媒体，是依托新的技术支撑体系出现的媒体形态。新媒体是利用数字技术，通过计算机网络、无线通信网、卫星等渠道，以及电脑、手机、数字电视机等终端，向用户提供信息和服务的传播形态。从空间上来看，“新媒体”特指当下与“传统媒体”相对应的，以数字压缩和无线网络技术为支撑，利用其大容量、实时性和交互性，可以跨越地理界线最终得以实现全球化的媒体。变局成为2021—2022年中国新媒体行业发展的关键词，围绕战略传播、数字经济、元宇宙、网络治理、互联网出海。

2024-09-18 08:34:12 223

转载注意力机制

Transformer、BERT等模型在NLP领域取得了突破，其模型主要依赖了注意力机制（Attention Mechanism）。注意力Attention机制被应用到越来越多的地方，那么注意力Attention机制的原理和本质到底是什么？

2024-09-13 18:10:37 103

原创 NVIDIA Tesla P100/V100

NVIDIA Tesla P100是一款由NVIDIA公司在2016年发布的高性能显卡，它采用了帕斯卡架构，专为数据中心、深度学习和其他高性能计算任务设计。

2024-09-13 11:39:48 893

转载英伟达显卡性能对比

Quadro类型：Quadro系列显卡一般用于特定行业，比如设计、建筑等，图像处理专业显卡，比如CAD、Maya等软件。GeForce类型：这个系列显卡官方定位是消费级，常用来打游戏。但是它在深度学习上的表现也非常不错，很多人用来做推理、训练，单张卡的性能跟深度学习专业卡Tesla系列比起来其实差不太多，但是性价比却高很多。Tesla类型：Tesla系列显卡定位并行计算，一般用于数据中心，具体点，比如用于深度学习，做训练、推理等。

2024-09-13 09:56:17 93

转载常用的八大架构图

在互联网行业中，产品架构图对后续的开发人员和测试人员尤为重要，可以很直观的帮助工作伙伴了解产品，从而更好的进行技术设计和功能验证。系统架构图主要关注系统的整体结构和可扩展性，通过它可以了解到系统的部署和物理结构，指导系统各个方向的设计。应用架构在八大架构图中起到了呈上启下的作用，它承接了业务模式和产品功能的实现落地，也向下指导了技术模块的设计与展开。信息架构图的作用是表达信息与信息之间的关系。最常见的架构图有：业务架构、产品架构、系统架构、数据架构、技术架构、应用、功能架构及信息架构。

2024-09-12 16:03:17 87

转载各种系统架构图与详细说明

在3.3.3图中对本次项目整体应用系统建设需求同样也进行了归纳，项目整体分为三个主体建设，即：共享信息平台的搭建、原有应用系统的改造以及新的应用系统的搭建。共享信息平台的建设旨在全面整合相关应用系统资源，实现有效的浏览、查询检索机制，整体数据通过规范化的元数据管理机制，实现有效的梳理存储，为今后资源的整合奠定基础。不仅如此，在实际项目建设中还将引入商业智能应用模块，实现对共享资源的智能化分析，从而为决策预警等提供有力依据。

2024-09-11 18:01:18 418

转载 SM4.0

SM4.0（原名SMS4.0）是中华人民共和国政府采用的一种分组密码标准，由国家密码管理局于2012年3月21日发布。相关标准为“GM/T 0002-2012《SM4分组密码算法》（原SMS4分组密码算法）”。在商用密码体系中，SM4主要用于数据加密，其算法公开，分组长度与密钥长度均为128bit，加密算法与密钥扩展算法都采用32轮非线性迭代结构，S盒为固定的8比特输入8比特输出。

2024-09-11 17:31:20 181

转载如何做好架构设计

我在这重新定义架构（见仁见智）：软件架构指软件系统顶层结构设计。架构是经过系统性地思考，权衡利弊之后在现有资源约束下的最合理决策，最终明确的系统骨架：包括子系统、模块、组件，以及他们之间协作关系、约束规范、指导原则，并由它来指导系统各方面的设计和指导团队中的每个人思想层面上的一致。

2024-09-11 17:20:31 302

转载如何画好一张架构图

01、画架构图是架构师的一门必修功课。架构的表达 = 架构在不同抽象角度和不同抽象层次的表达，这是一个自然而然的过程。不是先有图再有业务流程、系统设计和领域模型等，而是相反，用图来表达抽象的思考和内容。01、

2024-09-11 11:52:31 206

转载架构图介绍

系统架构图是为了抽象地表示软件系统的整体轮廓（包括哪些组件）和各个组件之间的相互关系和约束边界，以及软件系统的物理部署和软件系统的演进方向的整体视图。

2024-09-11 10:40:00 77

转载什么是架构

软件架构所指的就是说相应的系列性的抽象模式（功能的抽象），可以为设计大型软件系统的各个方面提供相应的指导。从本质上来看，软件架构是属于一种系统草图。在软件架构所描述的对象就是直接的进行系统抽象组件构成。连接系统的各个组件之间就是做到把组件之间所存在的通讯比较明确与相对细致的实施描述。处于相应的系统实现环节，那么就会使得细化这些抽象组件成为现实的组件，比如可以是具体的某个类或者是对象。从面向对象领域进行分析，那么各个组件之前实施的连接实现往往是接口。软件架构为软件系统提供了一个结构、行为和属性。

2024-09-11 10:09:39 99

转载什么才是真正的架构设计

在软件行业，对于什么是架构，都有很多的争论，每个人都有自己的理解。此君说的架构和彼君理解的架构未必是一回事。因此我们在讨论架构之前，我们先讨论架构的概念定义，概念是人认识这个世界的基础，并用来沟通的手段，如果对架构概念理解不一样，那沟通起来自然不顺畅。Linux有架构，MySQL有架构，JVM也有架构，使用Java开发、MySQL存储、跑在Linux上的业务系统也有架构，应该关注哪一个？想要清楚以上问题需要梳理几个有关系又相似的概念：系统与子系统、模块与组建、框架与架构。

2024-09-11 09:40:58 345

转载 OpenAI

OpenAI，是一家开放人工智能研究和部署公司，其使命是确保通用人工智能造福全人类。创立于2015年12月，总部位于美国旧金山。现由营利性公司OpenAI LP及非营利性母公司OpenAI Inc组成。OpenAI最早为非营利组织，于2015年底由包括萨姆·奥尔特曼（Sam Altman）、彼得·泰尔（Peter Thiel）、里德·霍夫曼（Reid Hoffman）和埃隆·马斯克（Elon Musk）等创办。

2024-09-10 17:51:16 1118

原创多隐层神经网络的优势

单层神经网络只能学习一定程度的非线性映射，而多层神经网络可以组合这些非线性映射，实现更高级的非线性变换，从而扩展了网络表达的空间。这对于处理复杂的非线性问题至关重要。一层学习到简单特征，下一层在此基础上学习更复杂的特征，以此类推。在多层网络中，每一层只需要学习一定程度的特征或概念，这有助于避免某一层学习过于复杂的模式，从而减轻过拟合问题。每一层的神经元都可以学习一组特征，多层结构可以学习到更丰富的特征，表达更复杂的概念。此外，通过多层结构，可以在不同的抽象层次上正则化网络，进一步降低过拟合的风险。

2024-09-10 14:43:35 328

转载深度学习中梯度消失、爆炸的原因以及解决方案

从神经网络的发展过程中，有一个问题困扰了很多人，也是神经网络发展道路上的一大绊脚石。它就是大家并不陌生的梯度消失、爆炸。本文主要深入介绍梯度消失、爆炸的产生原因和目前的一些解决方案，让大家对于梯度消失、爆炸的现象能够有更深的理解。其中有些知识相对基础，大家可以根据需求进行跳跃阅读。

2024-09-10 14:36:43 65

转载 Qt5.15.2及其以上的Qt版本在线安装

里面有三个版本：Windows版本、Linux版本、Mac版本，根据需要选择（本人选择Windows）。对Qt发展的贡献，勾选Disable sending.......，勾选MSVC和MinGW这两种编译方式和一些常用的组件。选择Archive，进行筛选（这是重点：现在下载的。登录Qt账号，没有的话先注册一个。将快捷方式命名为Qt5.15.2。均已停止提供离线安装包，但是对于。开源义务，两个按钮均勾选。下载离线安装包进行安装。的，所以我们首先需要。

2024-09-10 08:11:31 211

转载神经网络：深入了解优化器

神经网络的训练一般来说都是利用梯度下降法来进行（其实参数更新还可以利用各种各样的优化算法，这里只讲梯度下降），但是我们只了解了梯度下降法在数学中的定义，具体在实际工作中如何进行我们还没进行系统学习。SGD（随机梯度下降法），说是随机梯度下降法，其实它的工作原理和上面的批梯度下降法相同，都是用小批次进行训练。工作原理都是从SGD开始的，所以放在这主要是一个基础加引用的目的（所有的优化器，他的训练模式都是小批量（batch）训练）。它的工作原理为：给定初始的学习率R，动量M，动量更新参数为η。

2024-09-09 17:55:16 111

转载 cuda、nvidia-driver、cuda-toolkit、cuDNN

在您的例子中，nvidia-smi 显示的 CUDA 版本是 12.2，这是 NVIDIA 驱动程序版本 535.129.03 所支持的 CUDA 版本。虽然 CUDA 编译工具的版本和 GPU 驱动程序支持的 CUDA 版本通常是相关的，但它们并不总是一一对应。nvidia-smi 显示的 CUDA 版本通常是指安装的 NVIDIA 驱动程序所支持的 CUDA 版本。在您的例子中，nvcc -V 显示的 CUDA 版本是 11.8，这是您安装的 CUDA 编译工具版本。

2024-09-09 16:54:19 59

转载 Softmax

Softmax从字面上来说，可以分成soft和max两个部分。max故名思议就是最大值的意思。Softmax的核心在于soft，而soft有软的含义，与之相对的是hard硬。很多场景中需要我们找出数组所有元素中值最大的元素，实质上都是求的hardmax。通过上面的例子可以看出hardmax最大的特点就是只选出其中一个最大的值，即非黑即白。但是往往在实际中这种方式是不合情理的，比如对于文本分类来说，一篇文章或多或少包含着各种主题信息，我们更期望得到。

2024-09-09 15:15:32 57

翻译 Gemma2——Google 新开源大型语言模型完整应用指南

Gemma2以前代产品为基础，提供增强的性能和效率，以及一系列创新功能，使其在研究和实际应用中都具有特别的吸引力。Gemma 2 的与众不同之处在于，它能够提供与更大的专有模型相当的性能，但其软件包专为更广泛的可访问性和在更适中的硬件设置上使用而设计。随着深入研究 Gemma 2 的技术规格和架构，越来越被其设计的精妙之处所折服。该模型采用了多种先进技术，包括新颖的注意力机制和创新的训练稳定性方法，这些都为其卓越的性能做出了贡献。

2024-09-09 14:08:26 103

转载 GLM4-9B-chat模型微调

github地址：https://github.com/THUDM/GLM-4。

2024-09-09 13:50:05 109

转载英伟达10款主流GPU参数

2、H800的产品参数型号为H100、H800、A100、A800、4090、4090D、L40s、L40、H20、L201、H100的产品参数（中英文彩页参数略有不同）2、H800的产品参数。

2024-09-09 10:49:50 213

转载 GPU概念相关的10个常见问题

随着AI人工智能的火热，GPU卡和GPU服务器市场的需求也持续攀升，服务器相关领域的朋友对GPU相关问题的讨论也越来越多。我整理了常见的10个问题给大家做个专题分享。

2024-09-09 10:20:07 183

转载英伟达高管科普：什么是GPU?

GPU 从单纯的图形加速器到在超级计算机中扮演关键角色的历程，标志着技术快速进步和应用不断扩展的故事。机器学习曾经缓慢且不准确，但 GPU 的集成彻底改变了大型神经网络，推动了自动驾驶和图像/物体识别等领域的进步。这些早期成果表明，GPU 可以加速图形渲染以外的计算密集型任务，例如神经网络中使用的矩阵和向量运算。GPU 的出现为有效训练深度和复杂的神经网络提供了必要的资源，推动了深度学习技术的快速发展和广泛采用。用户看到的是部分渲染的茶壶，随着 CPU 内核完成并选择新的三角形进行渲染，茶壶会慢慢完成。

2024-09-09 10:00:08 179

转载 Intel Xeon“可扩展”的含义

至强”作为Intel专门为服务器打造的一个CPU系列，一直在x86市场占据绝对霸主地位，在AMD猛烈冲击下，截止到2022年，产品全球市占率依然高达70%。下图通过时间轴为大家展示一下从2017年7月第一代Intel至强“可扩展”发布到2023年1月的第四代正式的历程。

2024-09-09 09:41:44 98

转载 LangChain表达式LCEL

LangChain表达式语言(LCEL，LangChain Expression Language)是一种声明式的方式，可以将链条组合在一起。LCEL从一开始就被设计为。以下是LCEL的优点：1）流式支持：使用LCEL构建链时，可以得到最佳的首次得到令牌的时间（输出的第一块内容出来之前的时间）。例如，从LLM流式传输令牌到一个流式输出解析器，就可以以与LLM提供者输出原始令牌相同的速率得到解析后的、增量的输出块。

2024-09-06 14:38:42 53

空空如也

空空如也