代码赵-CSDN博客

原创 2026年什么职业有发展前景？今春求职季AI行业需求旺盛！

年后开工首日，求职招聘平台脉脉发布《2026春招四大风口行业直通车》（以下简称《四大风口行业》），聚焦AI、互联网大厂、游戏、智能驾驶四大风口行业，结合最新招聘数据，为求职者梳理了今年春招最具增长潜力与薪酬竞争力的赛道。其中，AI行业以岗位需求旺盛、薪酬水平领先，成为今年春季求职季的最大热点。脉脉数据显示，2026年以来，平台新发AI相关岗位同比增长14倍。目前，字节跳动给一些硕士毕业的AI人才开出的月基础工资达到5万—6万元，非“人才计划”应聘者的月基础工资也可达到4万元左右；

2026-02-28 18:15:10 519

原创 Kaggle竞赛正在组队中，等待你的参与！

Kaggle竞赛组队中

2025-11-11 21:59:51 112

原创秋招季，AI岗杀疯了！

2026届校招已经陆续开始了！如果你是今年参加校招、实习或者社招，不知道怎么准备，注：由于篇幅有限，课程重磅升级！详细的课程大纲可以加助教获取，最新内容升级更多！根据提示加助理即可获取。

2025-09-12 10:12:03 238

原创大模型应用新趋势：从思维链到 HTML 渲染的破局之路

大模型交互范式正从Prompt工程向思维链（CoT）技术演进，后者通过优化推理路径显著提升了复杂任务处理能力，使模型从被动响应转向主动推理。同时，纯文本大模型通过HTML渲染实现视觉能力突破，依赖于上下文窗口的扩展、HTML训练数据的专业化构建以及跨模态映射能力的提升。这些技术进展使得大模型能够生成富文本格式和视觉卡片，应用于办公提效和创意设计等领域。未来，大模型的发展将趋向于架构创新、混合模型体系以及后思考模式的探索，以实现效率与智能的平衡，推动大模型从功能单一化向生态系统化演进。

2025-05-19 17:20:40 1056

原创解锁注意力机制：深度学习的智慧之眼

想象一下，当你阅读一本精彩的小说时，你真的会逐字逐句、平均用力地去理解每一个词吗？当然不是。遇到关键情节、重要人物线索时，你的目光会停留更久，大脑也会更加专注地处理这些信息。比如在《哈利・波特》系列中，看到 “伏地魔” 这个名字，你的注意力瞬间被吸引，脑海中会立刻浮现出他邪恶的形象、可怕的魔法以及与主角们的种种对抗，周围的文字似乎都成了陪衬。这，就是注意力机制在生活中的体现 —— 我们的大脑本能地对关键信息给予更多关注，忽略那些相对次要的内容。在深度学习模型里，注意力机制同样扮演着这样的角色。

2025-04-22 11:43:26 1947

原创循环神经网络（RNN）：原理、应用与发展

训练时，BPTT 沿时间轴计算梯度，同时能处理动态输入，无需固定序列维度。训练过程包含前向传播和反向传播，反向传播采用时间反向传播（BPTT）算法，但会面临梯度消失或梯度爆炸问题，可借助梯度裁剪、LSTM 或 GRU 等改进结构解决。然而，它也面临挑战，即便有 LSTM 和 GRU 的改进，在处理超长序列时仍存在信息衰减问题；其独特的循环连接结构，能在时间步之间传递隐藏状态，实现对时序信息的记忆和处理，具备记忆性、参数共享以及图灵完备等特性，广泛应用于自然语言处理、时间序列预测等领域。

2025-04-22 11:32:30 455

原创揭开 Transformer 的 “神秘面纱”：可解释性探索与实践

部分研究人员认为，不能简单地将标准注意力模块视为预测结果的合理解释依据，但在当下，BertViz 依旧是备受青睐的注意力可视化工具之一。注意力矩阵热图和二分图是目前常用的注意力可视化手段，即便它们存在一定的局限性，在相关研究和实践中仍被广泛应用。在这个视图中，我们能直观看到不同注意力头关注的重点差异，有的聚焦相同单词，有的则对分隔符给予更多关注。模型视图提供了一个全局视角，它整合了所有图层和头部的注意力信息，勾勒出注意力模式从输入到输出的变化轨迹，帮助我们把握整个模型注意力机制的演变过程。

2025-04-22 11:16:44 585

原创经典的十大神经网络模型

其结构包括输入层、两个卷积层（C1、C3）、两个池化层（S2、S4）、两个全连接层（F5、F6）及输出层。：2012年ImageNet竞赛冠军模型，由Alex Krizhevsky提出，包含8层网络（5个卷积层、3个全连接层），首次使用ReLU激活函数和Dropout正则化。：牛津大学视觉几何组（Visual Geometry Group）提出，采用堆叠3×3小卷积核，构建16层（VGG-16）和19层（VGG-19）网络。：图像分类、目标检测（如FPN）、语义分割（如DeepLab）。

2025-04-21 11:25:15 1086

原创 AI新手村：Hugging Face

Hugging Face 最早作为 NLP 模型的社区中心，成立于 2016 年，但随着 LLM 的大火，主流的 LLM 模型的预训练模型和相关工具都可以在这个平台上找到，此外，该平台还提供了丰富的计算机视觉（Computer Vision）和音频相关的模型。Hugging Face 常被誉为AI 模型界的 GitHub。

2025-04-21 11:16:56 704

原创深入解析 Transformer 架构

幸运的是，类似于计算机视觉中的深度学习，针对特定任务的新技能可以迁移到大型预训练的 Transformer 模型中，例如从 HuggingFace 仓库下载的模型。另一个可能被忽略的重要细节是用于稳定 softmax 函数的缩放因子，即在将值输入注意力层使用的 softmax 函数之前，这些值按键向量单元数的平方根的倒数进行缩放。令人惊讶的是，原始 Transformer 能够学习序列中的长期依赖关系，实际上，原始 Transformer 可以轻松学习关系的距离是有限的。键和值向量来自编码器堆栈的输出。

2025-04-21 11:08:20 922

原创 “白话文”讲大模型系列：模型网络核心之Transformer网络

Transformer英文翻译记忆/变压器，查阅了比较多的文献确实没有很好的中文汉字能够表达这个意思，如果非找个汉字表达，或许“变换器”或“转换器”比较合适，他通过自带encode-decode模式，实现A->B的自由转换，尤其适合在翻译、文本生成等场景。

2025-04-16 10:26:08 2251

原创如果你连LLM（大语言模型）是如何生成文本的都不懂，就别说你会AI！

比如“Hello, I'm an AI assistant.”可能会被拆成['Hello', ',', 'I', "'m", 'an', 'AI', 'assistant', '.']。由于 Transformer 本身不具备处理“顺序”的能力，因此需要为每个Token添加位置信息，以便模型知道哪个词在前，哪个在后。位置编码给每个Token加上顺序信息，确保模型理解词序，比如“猫追狗”和“狗追猫”的区别。最后，对生成的文本进行一些清理，比如去掉特殊符号、调整格式，甚至可以进行语法检查，使得文本更自然可读。

2025-04-16 09:57:57 1063

原创卷积神经网络 (CNN)丨AI为什么能看懂图片？

CNN能够在成千上万张人脸中，快速识别出你的脸，还能区分出微小的差别，比如你今天换了个发型，还是戴了个眼镜，它都能精准识别。你想想，当我们看一张图片时，首先看到的是它的轮廓，对吧？特征图的生成，就像是从输入层的原始信息出发，经过隐藏层的层层提取和组合，最终得出了对图片的理解。总的来说，CNN就像是AI的一双“眼睛”，通过一层层的“扫描”和“筛选”，它能逐步理解图片的内容。我们来打个比方，这就像你看一本书，不是一下子把整本书的内容记住，而是先看章节标题，再看每一节的重点，最后形成对整本书的理解。

2025-04-16 09:41:06 1037

原创突破Transformer！时间序列预测！！

假设你想预测股票价格，就像试着预测天气一样。股票价格随时间变化，里面既有规律（比如趋势和周期）又有很多突发的小波动。今天利用Transformer+ARIMA，对股票价格预测进行一个通透讲解。是一种传统的统计方法，它能捕捉股票价格的线性变化和一些短期波动，就好像用简单的数学公式来描述天气的温度变化。是近年来兴起的深度学习方法，最初用于处理自然语言，但它能通过“自注意力机制”捕捉长时间跨度内的关系，擅长发现数据中复杂的、非线性的模式。把两者结合起来，就能这样就有可能提高股票价格预测的准确性。

2025-04-15 17:00:45 903

原创最强回归算法，随机森林回归

属于 Bagging（.bootstrap aggregating）策略的典型应用。它通过构建多个决策树（基模型），并将它们的预测结果进行平均（回归任务）或投票（分类任务），从而提升模型的泛化能力和鲁棒性。随机森林回归可以从理论理解、算法实现和实践应用三个层面展开学习。），无需手动实现底层算法，专注于数据处理和模型调优。使用 Python 的。

2025-04-15 16:33:46 2641

原创 Transformer | 一文了解：缩放、批量、多头、掩码、交叉注意力机制（Attention）

这是一个自注意力模块的示意图（图中假设N=6，D是一个较大的数字，HS也是如此，一般情况下这里的D=HS）。例如，矩阵中第（R，C）个单元格的值越高，就意味着序列中索引为R的Token与索引为C的Token之间的关系越强。将一个（B，N，D）数组乘以（D，HS）会在第一个数组的最后一维和第二个数组的第一维之间进行收缩，结果为（B，N，HS）。Q、K和V最初是（B，N，D），因此通过首先将D拆分成（NH，HS），然后改变维度的顺序，将它们重塑成更方便的形状，得到（B，NH，N，HS）。其余的维度保持不变。

2025-04-15 15:21:43 1054

2501_91666869的博客