- 博客(309)
- 收藏
- 关注
原创 deepseekv2———MLA与解耦位置编码-详细原理解析
MLA(Multi-Head Latent Attention)完整解析:从原理到公式详解。
2025-11-11 17:47:33
987
原创 deepseek-v2之MLA(Multi-Head Latent Attention)潜在注意力机制
摘要:DeepSeek-V2的MLA(Multi-Head Latent Attention)通过KV压缩解决Transformer的KV Cache瓶颈。传统方法需缓存所有历史token的高维Key/Value向量(显存占用大),而MLA利用低秩压缩将KV映射到潜空间,仅需存储压缩后的低维向量$\mathbf{c}_t^{KV}$,显存占用减少87.5%(如$d_c=1024$时压缩比达8×)。
2025-11-10 14:55:58
1023
原创 SpeechT5 模型训练注意的事项(vocabs词典构建,语音序列压缩与扩张)
SpeechT5 模型训练注意的事项(vocabs词典构建,语音序列压缩与扩张)
2025-09-03 09:59:04
887
原创 BBPE(Byte-level BPE)子词(subword)分词算法
BBPE 分词算法详解 BBPE(Byte-level BPE)是现代大模型的核心分词技术,通过字节级编码和预分词规则解决传统BPE的局限性。其核心流程包括:将文本转为UTF-8字节序列、运行BPE算法合并高频字节对、构建词汇表。关键技术突破在于: 预分词机制 - 通过空白符分割、标点隔离和CJK字符保护,防止无意义合并 数字处理 - 用正则表达式或自定义规则强制拆分数字为单个digit 字节级编码 - 原生支持多语言、emoji和特殊符号 典型应用包括GPT系列和Llama模型,Hugging Face工
2025-08-20 14:20:58
1074
原创 Could not find platform independent libraries <prefix> Consider setting $PYTHONHOME to <prefix>[:<ex
报错问题解决
2025-08-13 16:06:02
857
原创 论文研读0530(基于循证思维的档案文献遗产数据故事化模型构建研究)
目的/意义]对于文化产业,认知门槛低、交互体验强、记忆点鲜明的数据故事丰富了文化传承与传播路径,为唤醒集体记忆提供新媒介。但是目前数据故事化研究主要集中于故事内容的生成,忽略了对来源数据的前期控制,使得故事的可信度和完整性受到质疑。[方法/过程]引入循证思维,构建档案文献遗产的数据故事化模型,秉持可溯源循证、可信赖循证、可解释循证三项基本原则,全面搜寻事件证据,基于时空关联和语义逻辑构建事件证据链,结合多元互证方法,旨在创造更加准确的故事。
2024-05-30 17:06:49
1993
转载 转postman与Pythonflask相结合接口测试
【【自动化接口测试(1)】postman与python_flask相结合,完成接口请求自动化 【建议加精收藏,真的有用!】 - CSDN App】http://t.csdnimg.cn/2h6py
2024-01-22 16:11:31
183
1
原创 (论文研读)A Video Key Frame Extraction Method Based on Multiview Fusion-————一种基于多视图融合的关键帧抽取方法
论文研读
2023-02-28 18:16:23
2227
1
原创 AttributeError: module ‘ssl‘ has no attribute ‘SSLSocket‘或者OpenSSL SSL_read: Connection was rese
bug解决
2023-01-17 15:16:09
2337
原创 深度学习语法笔记(一)——loss.item() -numpy() - unsqueeze() -MSELOSS()
python一些语法使用,自学的一些笔记。
2022-11-25 17:08:20
1164
原创 AttributeError: module ‘lib‘ has no attribute ‘X509_V_FLAG_CB_ISSUER_CHECK‘
bug解决
2022-11-08 15:11:33
14519
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅