自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 AI辅助编程背景下的思考与心得--密码加密篇

为什么初始情况AI并没有给出合理的加密方式?

2026-02-14 13:19:07 326

原创 从零开始讲LLM原理-3.3Decoder-Only PLM

事实上,就是目前大火的 LLM 的基础架构,目前所有的 LLM 基本都是 Decoder-Only 模型(RWKV、Mamba 等非 Transformer 架构除外)。而引发 LLM 热潮的 ChatGPT,正是 Decoder-Only 系列的代表模型 GPT 系列模型的大成之作。而目前作为开源 LLM 基本架构的 LLaMA 模型,也正是在 GPT 的模型架构基础上优化发展而来。

2025-07-28 00:06:18 1044

原创 从零开始讲llm原理-3.2Encoder-Decoder PLM

(Text-To-Text Transfer Transformer)将所有 NLP 任务统一表示为文本到文本的转换问题, 基于 Transformer 架构,包含编码器和解码器两个部分,使用自注意力机制和多头注意力捕捉全局依赖关系,利用相对位置编码处理长序列中的位置信息,并在每层中包含前馈神经网络进一步处理特征。T5 的大一统思想将不同的 NLP 任务如文本分类、问答、翻译等统一表示为输入文本到输出文本的转换,这种方法简化了模型设计、参数共享和训练过程,提高了模型的泛化能力和效率。

2025-07-26 00:00:05 749

原创 从零开始讲LLM原理-3.1Encoder-only PLM

BERT,全名为 Bidirectional Encoder Representations from Transformers,是由 Google 团队在 2018年发布的预训练语言模型。

2025-07-24 00:02:13 687

原创 从零开始讲LLM原理-2.3搭建一个Transformer

Attention 机制和 Transformer 的核心是Encoder、Decoder 结构,接下来,我们就可以基于上一章实现的组件,搭建起一个完整的 Transformer 模型。

2025-07-22 01:22:19 453

原创 从零开始讲LLM(大语言模型)原理-2.2Encoder-Decoder

在《Attention is All You Need》中,作者摒弃传统的 RNN、CNN 架构,仅依靠注意力机制构建出 Transformer 模型,引发了 NLP 领域的重大变革。Transformer 的核心组件为编码器(Encoder)和解码器(Decoder),二者均运用了注意力机制。后续基于 Transformer 发展的预训练语言模型,多通过对 Encoder - Decoder 部分的改进来构建新架构,像仅采用编码器的 BERT、仅使用解码器的 GPT 等。

2025-07-20 00:09:38 981

原创 从零开始讲LLM(大语言模型)原理-2.1注意力机制

想象在阅读一段文字时,不会平均对待每一个词,而是会在那些的关键词上,忽略不重要的部分。例如,在句子“坐在上”中,“猫”和“垫子”通常比“在”和“上”更重要。注意力机制的核心思想就是让模型学会这种“聚焦”的能力。它是现代人工智能(尤其是深度学习)领域的一个重要内容,特别是在自然语言处理(NLP)、(CV)等领域取得了巨大成功。注意力机制如同为(下文会讲~)装上“可调焦镜头”,使其从“均匀处理所有输入”进化到“智能聚焦关键信息”。两者结合催生了当今强大的AI模型(如ChatGPT)。

2025-07-19 00:52:48 390

原创 从零开始讲LLM(大语言模型)原理-1.NLP基础概念

文本摘要(Text Summarization):目的是生成一段简洁准确的摘要,来概括原文的主要内容。根据生成方式的不同,文本摘要可以分为两大类:抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive Summarization)。2021年5月22日,国家航天局宣布,我国自主研发的火星探测器“天问一号”成功在火星表面着陆。此次任务的成功,标志着我国在深空探测领域迈出了重要一步。

2025-07-17 00:56:58 685

原创 从零开始讲LLM(大语言模型)原理-0.认识篇

LLM 其实是 NLP 领域经典研究方法预训练语言模型(Pretrain Langguage Model,PLM)的⼀种衍生成果。NLP 领域聚焦于人类书写的自然语言文本的处理、理解和生成。。以 GPT、BERT 为代表的 PLM 是上⼀阶段 NLP 领域的 核心研究成果,以注意力机制为模型架构,通过预训练-微调的阶段思想通过在海量无监督文本上进行自监督预训练,实现了强大的自然语言理解能⼒。

2025-07-15 00:51:18 349

一些有关计算机导论电子书

一些有关计算机导论电子书

2025-08-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除