- 博客(26)
- 收藏
- 关注
原创 小默说AI(19):预训练 —— 模型自学语言规律
第一,预训练就是模型自学语言规律。第二,自监督学习——自己从文本中构造任务,不需要人工标注。第三,MLM是BERT的填空游戏(双向理解),下一个词预测是GPT的接龙游戏(单向生成)。第四,预训练让模型读海量文本,学会语言和知识。预训练等于读万卷书,微调等于专精一门。学会了通用语言后,如何让模型去做特定任务?下集——微调,让模型学会你的任务。分类微调、指令微调、LoRA……我们下集见。
2026-06-17 22:16:55
214
原创 BERT vs GPT——编码器 vs 解码器
第一,BERT等于编码器,双向理解,阅读理解能力极强,它猜填空。GPT等于解码器,单向生成,写作生成能力极强,它猜下一词。第二,BERT看全文理解每个词,GPT按顺序生成下一个词。架构不同,能力方向就不同。第三,BERT适合理解型任务——分类、问答、实体识别;GPT适合生成型任务——文本生成、对话、创作。第四,GPT的进化告诉我们一个规律:规模越大,能力越超预期。从1.1亿到1750亿参数,每一次跃迁都带来新能力。而且当规模够大时,生成的能力也会反哺理解。
2026-06-17 20:39:22
291
原创 小默说AI(17):Softmax —— 分数变概率
从图像分类到Transformer注意力机制,Softmax无处不在。本集讲透它的三步走流程、指数放大效应和数值稳定性技巧。
2026-06-13 21:21:22
180
原创 层归一化:规则统一才能跑得更快
归一化(Normalization)是一种数据预处理技术,通过调整数据的分布,使模型训练更加稳定和高效。想象一下:你在一个团队里工作,每个人都用不同的单位汇报数据——有人用英寸,有人用厘米,有人用英尺。你能直接把他们的数据加起来算平均吗?显然不行。你需要先把所有人的数据转换到同一个单位体系下。层归一化就是深度神经网络中的"统一单位"。在深度网络训练中,随着网络参数的变化,每一层的输入分布会不断改变——这种现象叫内部协变量偏移(Internal Covariate Shift)。
2026-06-06 12:46:01
272
原创 残差连接——信号增强的魔法
残差连接是深度学习中最基础也是最重要的设计之一。本文用直观的方式带你搞懂它为什么能解决梯度消失、为什么能支撑上百层网络的训练。
2026-05-31 23:52:32
235
原创 小默说AI(13):多头注意力——从多个角度理解
维度单头注意力多头注意力视角单一视角多视角并行维度拆分$d_{\text{model}}$ 维整体计算拆成 $h$ 个 $d_k$ 维子空间参数量完全相同(切分而非扩充)计算一个注意力分布$h$ 个注意力分布分工所有关系混在一起各头自动分工专业化融合直接输出Concat + $W^O$ 可学习融合多头注意力最重要的洞察是:表达力的提升不一定要靠增加参数量。有时候,仅仅改变参数的"组织方式",就能让模型获得全新的能力。
2026-05-29 21:28:20
370
原创 自注意力机制(下):QKV三矩阵
相似度度量计算方式为什么不用点积Q·Kᵀ✅ GPU 矩阵乘法深度优化,又快又好加性注意力v·tanh(W[Q;K])❌ 表达力更强但慢很多,实践中点积已够余弦相似度❌ 丢失了向量的长度信息(长度也包含语义)欧氏距离‖Q-K‖²❌ 语义场景不适用用一段话理解 QKV 在自注意力中的角色:自注意力就是一场"群聊会议"。Q是你提出来的问题——"谁在聊这个话题?K是每个人的名片——"我是研究这个方向的"V是每个人的发言——"关于这个话题,我有这些观点要说"
2026-05-28 10:30:12
169
原创 位置编码——给序列安上坐标
Transformer并行处理效率高但丢失了顺序信息,位置编码就是给它补上坐标的机制。正弦波 vs 可学习编码,两种方案详解。
2026-05-24 16:34:29
348
原创 Transformer——大模型的骨架
Transformer是大模型的骨架,本文将带你理解编码器与解码器、自注意力机制、GPT与BERT的区别,以及架构与数据的关系。
2026-05-22 19:49:55
701
原创 损失函数:模型进步的“指南针”
模型预测的结果和真实答案之间肯定有差距。**损失函数就把这个差距算成一个数字。**- 这个数字**越小**,说明预测越接近正确答案- 这个数字**越大**,说明偏差越大模型的训练目标,就是通过不断调整自己的参数,让这个损失值越来越小,越来越趋近于零。虽然名字叫"损失",它的作用非常正面:**像一个指南针,给模型指出"你离正确答案还有多远"**。# 损失函数的数学表达 Loss = 距离函数(模型预测, 真实答案) 目标:最小化 Loss。
2026-05-19 17:34:53
298
原创 神经网络为什么要非线性?三大激活函数一次讲明白!
神经网络的灵魂在于非线性。从Sigmoid到ReLU到GELU,一文讲透三大激活函数——为什么需要它们,各自有什么优缺点,为什么大模型都选GELU。
2026-05-17 17:53:00
367
原创 AI小知识:什么是大语言模型(LLM)?
比如给你“今天天气真”,模型会预测最可能的下一个词是“好”。大语言模型(Large Language Model,简称LLM)是一种基于深度学习的AI模型,通过海量文本数据训练而成,能够理解和生成自然语言。一个LLM的参数数量越多,通常能力越强。GPT-4据说有1.8万亿参数,而人脑大约有100万亿个突触连接——AI离人脑还有距离,但进步速度惊人!• DeepSeek(深度求索)• GPT系列(OpenAI)• GLM系列(智谱AI)• 通义千问(阿里)• 文心一言(百度)
2026-05-09 10:27:10
30
原创 使用timer控件创建一个简单的报警程序
简介: 当我使用计算机工作时,我总是如此的专心致志,以至于每当我过了“一会儿”去看时间时,发现已经过了三个小时,而我却完全没有意识到!所以我决定使用我从Code Project学来的C#技术,来创建一个简单的应用程序—使用Timer 对象来倒计时一个由我自己设定的时间,并一直循环播放一段wave音乐,直到你重设timer控件。 Timer对象基础 首先你要知
2003-10-09 22:20:00
1434
原创 正则表达式(三)
前面的文章中,介绍了正则表达式的基本语法,以及一些简单的例子。但这些并不是我们会遇到的全部问题,有些时候我们不得不编写一些较为复杂的正则表达式来解决我们的实际问题。 这里,我先提几个问题,然后,我们逐个运用正则表达式的知识来解决。1. 符合两种条件之一,都成立,例如:是纯数字或者纯字符123(true),hello(true),234.test23(fa
2003-04-04 12:48:00
1136
原创 XML技术 (一)
一、XML简介提起XML(Extensible Markup Language 可扩展标记语言),相信业内人士都不会陌生,作为一种计算机技术出现不过是短短几年的事情,以其简便性而颇得人心。我们来看一个简单的例子: Nige Ress Sayings of the Century Evelyn Waugh
2003-04-04 09:15:00
1109
原创 使用C#操作ini文件
使用C#操作ini文件 原作:BLaZiNiX 翻译: dragontt 这个类,封装了Kernal32.dll 中提供的方法来操作ini文件。简介: 这里创建了一个类,封装了KERNEL32.dll中提供的两个方法,用来
2003-04-04 09:10:00
3661
原创 正则表达式(一)
正则表达式(一)一、简介正则表达式这个名词,相信很多人都听说过,这个名词最早起源于1956 年, 一位叫 Stephen Kleene 的美国数学家在 McCulloch 和 Pitts 早期工作的基础上,发表了一篇标题为“神经网事件的表示法”的论文,引入了正则表达式的概念。正则表达式就是用来
2003-04-03 08:56:00
1314
原创 正则表达式(二)
在前一篇文章中,介绍了一些初步的正则表达式的基本概念,相信很多人对正则表达式的基本知识有所了解,接下来,我们结合一些实际的编程示例来掩饰说明正则表达式的作用。 首先,我们先看几个实际的例子:1. 验证输入字符是否全部为英文字符javascript:var ex = "^//w+$";var re = new RegExp(ex,"i");return
2003-04-03 08:56:00
1066
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅