- 博客(496)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 LLM - GQA 之 Group Query Attention 论文与源码精读
GQA 之 Group Query Attention 详解。
2024-08-06 10:14:11 788
原创 LLM - Generate With KV-Cache 图解与实践 By GPT-2
LLM Generate With KV-Cache 图解与实践 By GPT-2
2024-05-13 10:30:00 1404 2
原创 LLM - Get Sample Token Hist For Train / Test 获取批次样本 token 长度分布
获取批次样本 token 长度分布。
2024-04-23 11:43:45 831
原创 LLM - 通过 PagedAttention 轻松、快速、廉价的提供 LLM 服务 - vLLM
vLLM - 通过 PagedAttention 轻松、快速、廉价的提供 LLM 服务。
2024-04-19 10:30:00 995
原创 LLM - Whitening Sentence Representations for Better Semantics and Faster Retrieval 用于更好语义更快检索的句子白化操作
特征白化在向量检索和降维的探索。
2024-04-09 09:00:00 1023
原创 LLM - Weight-Decomposed Low-Rank Adaptation 之 DoRA
Weight-Decomposed Low-Rank Adaptation 之 DoRA 论文详解。
2024-04-01 10:30:00 993
原创 LLM - 具有 IO 感知的快速内存高效精确计算 FlashAttention
具有 IO 感知的快速内存高效精确计算 FlashAttention 简介。
2024-03-12 10:11:24 891
原创 LLM - Transformer && Multi-Head Attention 维度变化与源码详解
Transformer && Multi-Head Attention 维度变化与源码详解。
2024-02-21 08:00:00 1458 4
原创 LLM - Transformer 的 Q/K/V 详解
Transformer 中 Self-Attention、Multi-Head-Attention 原理与实践。
2024-01-27 09:42:19 1432 2
Scala areOnJava8() 代码形式
2022-07-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人