AI奇点更近-突击学习AI大模型
文章平均质量分 65
AI时代奇点来临
突击学习AI大模型
最近突击学习AI大模型的知识,定位在大模型的应用开发上,因此最近就是疯狂的学习。也要觉得实操啊。别学废了。
零点零一
抱歉,我的博客通常记录为自己用的,所以有时候比较乱!请理解!谢谢!
Make it right before you make it faster. Keep it right when you make it faster. Make it clear before you make it faster. Do not sacrifice clarity for small gains in efficiency.
-- Brian Kernighan
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
12点才睡1个多小时,折腾来还是难以入睡,再学个科普
摘要:深夜失眠时观看B站科普视频学习神经网络知识,内容包括函数、参数计算到CNN、RNN等原理。推荐"飞天闪客"的优质讲解,同时提到数学教学重点缺失问题。附带相关视频链接作为延伸学习资料,但因困意只看到第四节便入睡。原创 2025-07-25 03:55:42 · 378 阅读 · 0 评论 -
能积微者速成《从零构建大模型》复习
本文记录作者重新学习《从零构建大模型》的过程,从第二章开始复习,重点理解将词元转换为词元ID的内容。作者在复习的同时,计划构思撰写应聘大模型应用开发岗位的简历。学习采用循序渐进的方式,注重基础知识的巩固与实际应用相结合。原创 2025-07-19 11:31:11 · 207 阅读 · 0 评论 -
利用AI解释:数值太大导致训练卡壳
摘要(150字): 大语言模型(如GPT)处理文本时,每个词会被转化为高维向量(嵌入维度常超1000)。计算词间关联(点积)时,高维会导致数值过大,使softmax函数输出极端(接近0或1),进而导致反向传播的梯度近乎为零,模型训练停滞。解决方法是对点积结果除以嵌入维度的平方根(如维度1000则除以√1000≈31.6),将数值缩放到合理范围,使softmax输出更均衡,梯度正常传递。这一关键步骤命名为“缩放”,故称“缩放点积注意力”。原创 2025-07-06 12:11:02 · 930 阅读 · 0 评论 -
学习《从零构建大模型》精读 第三章3.1~3.4
本文介绍了自注意力机制中的关键概念。点积用于度量向量相似度,在自注意力中决定元素间的关注程度。归一化处理使注意力权重总和为1,有助于模型稳定。文章详细解释了缩放点积注意力的原理,通过嵌入维度平方根缩放避免梯度消失问题。最后说明了查询、键、值概念的来源及其在注意力机制中的作用:查询代表当前关注项,键用于匹配查询,值则存储实际内容。这些技术共同构成了现代大语言模型的核心注意力机制。原创 2025-07-06 10:41:34 · 406 阅读 · 0 评论 -
学习神作《从零构建大模型》精读 第二章2.3~2.7
文章摘要:本文学习心得摘抄了自然语言处理中的词元处理流程和PyTorch基础知识。主要内容包括:1)将词元转换为ID并生成嵌入向量的预处理步骤;2)BPE分词算法原理及其处理未知单词的能力;3)PyTorch三大核心组件(张量库、自动微分引擎和深度学习工具)的详细说明;4)张量的基本概念和操作;5)计算图和自动微分在深度学习中的重要性。文章还强调了理论与实践结合的学习方法,建议通过编程练习巩固理解。原创 2025-07-02 10:04:19 · 1036 阅读 · 0 评论 -
记本好书:矩阵力量:线性代数全彩图解+微课+Python编程
《矩阵力量》是一本融合全彩图解、微课视频与Python编程的线性代数教材,由姜伟生编著。本书以数据科学和机器学习为应用场景,突破传统数学教材的枯燥模式,通过生动的讲解和丰富的配套资源(B站视频、GitHub代码)激发学习兴趣。读者评价其内容深入浅出,特别适合数学基础薄弱但想进入AI领域的学习者。作者强调"数学+编程"是未来的核心竞争力,书中三大板块(编程、数学、实践)有机衔接,让线性代数学习更具实践价值。配套的"生姜DrGinger"微课采用对话式教学,与书本内容形成原创 2025-07-01 17:51:54 · 1035 阅读 · 0 评论
分享