迷途小书童的Note-CSDN博客

转载 Transformer中的多头注意力详解

5. 头之间的正交性，对于多个头在训练过程中，如果他们的梯度不同，更新方向不同，且训练有效，那么头的参数矩阵会逐渐展现出正交性。4. 损失函数的隐式正则化，假设我们有2个或者2个以上的头的梯度方向高度一致，那么参数的更新也就趋向一致，那么这就存在。这里X5和X1都指的是车，它除了实体的识别外，还需要对”车“这个词的长程依赖。:学习到长程的关系，比如”他最喜欢的车是保时捷，但准备买的是X5，最终妥协买了X1“的指数运算而放大特定部分，而其他位置会被抑制，所以每个头的梯度方向自然也就不同了。

2025-05-26 21:17:03 36

转载【一文了解】Llama.cpp

它是一个高度模块化和可扩展的库，适合自然语言处理任务，涵盖从基础到高级的多种功能，满足不同场景需求，为我们搭建大模型应用提供了更为便利的工具。尽管它不支持训练，但在推理方面，它具备丰富的功能，支持模型加载、聊天、流式输出、上下文管理、量化、API 接口等，它是使用Meta系列模型一款不可缺少的工具。通过 `llama-server` 或社区项目，例如 `llama-cpp-python`，可以把 `llama.cpp` 部署为本地 API 服务。它是面向用户的 API 层，封装了对 ggml 的调用。

2025-05-22 21:43:10 70

转载注意力机制进化之路：MHA、MQA、GQA

本文将深入浅出地介绍几种主流的注意力机制，包括多头注意力 (MHA)、多查询注意力 (MQA)、分组查询注意力 (GQA)，以及最新的 DeepSeek FlashMLA，帮助您理解它们的工作原理、优缺点以及应用场景。相比 MQA，GQA 通过分组，让模型拥有了更丰富的“知识库”，性能更接近 MHA，通常能达到 MHA 性能的 98%-99%。您可以将其理解为，模型将输入信息分解成多个方面，然后分别计算每个方面的重要性，最终综合所有方面的信息。参数量降低，模型运行时所需的内存也随之减少，降低了硬件门槛。

2025-05-14 00:41:18 94

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

byte of python中文版

yolov5weights.zip

yolov4.zip

Android FastJSON小示例

Android webview代码示例

Mask Wearing.v1-416x416-black-padding.yolov5pytorch_2.zip

CIFAR100数据集中提取出来的物体图片

Android音乐播放器源码

最新tensorflow-2.2.0源码编译的动态链接库和头文件，cuda10.1加cudnn7.6，bazel-2.0.0

Android ListView简单示例

Darwin Streaming Server 6.0.3补丁文件

Gaussian_yolov3_BDD.weights权重文件

最新tensorflow-2.2.0源码编译的动态链接库和头文件，cuda10.1加cudnn7.6，bazel-2.0.0

PyQt5系列教程(二)利用QtDesigner设计UI界面源码包

py2exe python3 工具集

Android高德导航工程源码

py2exe 64位python3.4安装文件

Android用户登录实例

Android ViewPager实例

Vitamio源代码

gson 2.3版本的jar包

Head First 设计模式(中文版)

Android activity生命周期示例

空空如也