- 博客(886)
- 资源 (1)
- 收藏
- 关注
转载 Conv、BN、Relu融合
这篇文章主要介绍了如何把BatchNorm和ReLU合并成一个Conv,从而加速量化推理。按照计划,应该和之前的文章一样,给出代码实现。但我在测试代码的时候发现有一些bug需要解决,正好也控制一下篇幅,下篇文章会给出相关的代码实现。
2025-04-15 16:39:06
75
原创 Embedding质量评估、空间塌缩、 Alignment & Uniformity
空间塌缩指Embedding在高维空间中聚集到低维子空间,导致信息冗余和性能下降,常见于推荐系统和生成模型。Embedding质量的评估和空间塌缩的解决是自然语言处理(NLP)和推荐系统领域的关键问题。在对比表征学习(Contrastive Representation Learning)中,(均匀性)是两个核心概念,用于衡量学习到的特征表示的质量。分别从局部和全局角度刻画特征空间的特性,是理解与改进对比学习模型的重要理论基础。
2025-04-13 22:42:07
724
原创 Deepseek Bart模型相比Bert的优势
BART的核心优势在于其双向编码与自回归解码的融合架构多样化的去噪预训练策略以及多任务的统一适配性。相较于BERT,BART不仅继承了双向上下文理解能力,还突破了生成任务的限制,成为NLP领域更通用的解决方案。实际应用中,BART尤其适用于需生成与理解协同的场景(如对话系统、跨模态任务),而BERT更偏向纯文本理解任务。
2025-04-13 22:34:58
1069
原创 Deepseek IP-Adapter与InstantID的区别
前者通过解耦注意力机制扩展多模态生成能力,后者则通过领域专用模块(如IdentityNet)实现高精度身份保持。实际应用中,IP-Adapter更适合风格化创作,而InstantID在需要强ID保真的场景(如虚拟人像)表现更优。IP-Adapter与InstantID均为基于扩散模型的图像生成控制技术,但两者的算法设计目标、核心模块及应用场景存在显著差异。IP-Adapter与InstantID分别代表了扩散模型中。
2025-04-13 20:15:32
481
原创 DeepSeek BLEU和ROUGE(Recall)的计算
(Recall-Oriented Understudy for Gisting Evaluation) 的原生Python实现(不依赖第三方库),通过分步计算逻辑和示例详细说明。通过原生Python实现,可以更深入理解这些指标的计算逻辑,适用于定制化需求或教学场景。(Bilingual Evaluation Understudy)和。
2025-04-13 20:08:24
418
原创 [英语] precarious、trecherous、hazardous、perilous
不稳定导致危险→precarious(如经济、结构问题)。广泛危险→dangerous。健康/环境危害→hazardous。迫在眉睫的危险→perilous。主动冒险→risky。隐藏危险→trecherous。通过词义侧重和具体场景的匹配,可更精准地选择词汇。
2025-04-13 16:42:01
481
转载 多模态视觉token压缩方法(持续更新)
转载自 https://zhuanlan.zhihu.com/p/8776092026。除了QFormer外,暂时没发现哪个思路是更主流的,持续关注。
2025-04-12 21:38:41
43
原创 [英语] undue、excessive、inordinate、unwarranted的区别
若强调"超出合理范围且带有不适当性",首选undue;若单纯描述"过量",用excessive;若涉及"失控或极端",用inordinate;若需突出"缺乏依据",用。
2025-04-12 20:11:50
322
原创 [英语] abominable、detestable、despicable、odious、contemptible的区别
词汇核心侧重典型场景情感强度abominable极端恶劣,道德败坏罪行、环境、气味★★★★★detestable主观憎恨个人厌恶的行为(如谎言)★★★★despicable道德卑鄙背叛、欺骗等行为★★★★odious违背普世价值的可憎政治制度、抽象概念★★★★★因卑劣而轻蔑自私、懦弱等性格缺陷★★★参考语境形容纳粹统治时,丘吉尔用odious(网页3);而abominable更适合具体罪行或恶劣天气(网页4、6)。若需表达对某人的强烈道德谴责,despicable或。
2025-04-12 20:05:45
833
原创 大模型SFT用chat版还是base版 SFT后灾难性遗忘怎么办
进行 SFT 时,基座模型选用 Chat 还是 Base 模型?选 Base 还是 Chat 模型,首先先熟悉 Base 和 Chat 是两种不同的大模型,它们在训练数据、应用场景和模型特性上有所区别。在训练数据方面,Base 模型是基于海量语料库进行的无监督学习。它从大量文本中学习语言模式和知识,而不需要人工标注或监督。相比之下,Chat 模型则是在指令微调的有监督学习下进行训练的。这意味着它使用人工标注的数据集进行训练,以便更好地理解和响应特定指令。
2025-04-12 19:14:50
902
原创 TransformerEncoderLayer、DecoderOnly的大模型用的TransformerEncoder、TransformerDecoder之间的区别
简单来说,TransformerEncoderLayer和DecoderOnly的大模型用的TransformerEncoder都是过完self MHA后过FFN(但有如下列的若干区别,mask当然首当其冲);TransformerDecoder比TransformerEncoder多了cross MHA,当然mask也有较大的变化。
2025-04-10 21:31:13
474
原创 Leetcode 279. Perfect Squares 动态规划
【代码】Leetcode 279. Perfect Squares 动态规划。
2025-04-08 14:00:15
240
原创 [英语] replete 和 rife 的区别
若需进一步辨析具体语境中的用法,可参考上述来源。(这空间可能充满幸福与荣耀。(白宫充斥着他辞职的传言。(腐败在城市中泛滥。
2025-04-07 07:47:30
298
转载 排序学习调研 LTR learning to rank
转载自 http://xtf615.com/2018/12/25/learning-to-rank/
2025-04-07 07:46:03
19
原创 CVLM和GVLM、CLIP等缺点与改进
CLIP的局限性主要集中在数据质量、泛化能力、计算效率及任务适应性上。数据清洗与增强:减少噪声和偏见,引入合成数据或自监督学习提升数据效率。混合训练目标:结合对比学习与生成式目标,增强复杂任务处理能力。轻量化部署:优化模型架构(如剪枝、量化)或采用硬件加速技术提升推理速度。如需更详细的技术分析或具体应用案例,可参考相关研究论文或开源项目实现。
2025-04-06 13:13:45
917
原创 为什么卷积核的尺寸是奇数
在CNN中,进行卷积操作时一般会以卷积核模块的一个位置为基准进行滑动,这个基准通常就是卷积核模块的中心。若卷积核为奇数,卷积锚点很好找,自然就是卷积模块中心,但如果卷积核是偶数,这时候就没有办法确定了,让谁是锚点似乎都不怎么好。
2025-04-06 11:48:00
214
原创 Leetcode 311 Sparse Matrix Multiplication 稀疏矩阵相乘
Given two sparse matrices A and B, return the result of AB.You may assume that A’s column number is equal to B’s row number.Example:SolutionTransform B into defaultdict(dict)GPU Solution,来自DeepSeek的总结根据2025年最新研究进展,GPU处理稀疏矩阵乘法(SpMM/SparseGEMM)的主流算子可分
2025-04-06 11:15:35
848
原创 DyT (Transformers without Normalization)
省流版: DyT 的灵感来自于这样一个观察结果,即 Transformers 中的层归一化通常会产生类似 tanh 的 S 型输入输出映射。加入 DyT 后,没有归一化的 Transformers 在大多数情况下无需调整超参数,就能达到或超过归一化对应层的性能。因此DyT是LayerNorm/RMSNorm在Transformer类模型中的平替,但是在CNN中替换BatchNorm效果下降比较多。
2025-04-02 07:50:10
209
原创 DeepSeek总结常用的CoT方法(ToT、GoT)
常用的CoT(Chain-of-Thought,思维链)方法通过引导大语言模型生成中间推理步骤,显著提升了复杂任务的解决能力。
2025-04-02 05:11:26
315
原创 DeepSeek 汇总一下PRM和ORM的主要论文
PRM的核心创新在于通过逐步骤反馈优化模型推理路径,而ORM更注重最终结果的质量评估。当前研究趋势聚焦于降低PRM的标注成本(如隐式学习、自动标注)和提升ORM的稀疏信号利用效率。未来方向可能包括多模态PRM、动态奖励调整机制,以及面向工业场景的端到端优化框架。如需具体论文链接或进一步解读,可参考上述文献的原始出处。
2025-04-02 05:10:10
365
原创 DeepSeek 如何系统性的解决大模型的幻觉问题?
系统性解决幻觉需构建“数据-模型-知识-评估”的闭环:通过RAG和CoT增强事实性,动态知识库减少信息滞后,多智能体路由提升专业性,解码控制抑制语义漂移。未来需进一步探索模型自我纠错能力与跨模态证据融合,以实现更高可靠性。要系统性解决大模型的“幻觉”问题(即生成看似合理但实际错误的信息),需从数据优化、模型训练、知识管理、推理控制等多层面构建闭环解决方案。
2025-04-02 03:28:14
380
原创 Leetcode 1976. Number of Ways to Arrive at Destination 带重复的Dijstrala BFS等价
重复的dijstrla
2025-03-31 15:13:07
852
原创 PyTorch DDP流程和SyncBN、ShuffleBN
MoCo V1中就使用了Shuffling BN的操作。BN大部分的时候是在当前GPU上算的,使用BN的时候BN的running mean和runnning variance很容易让模型找到正确的解。Shuffling BN就是算之前先把样本顺序打乱,送到多卡上,算完再合在一起。,实际上就是把各块卡搜集到的均值和方差汇总起来。PyTorch DDP中的BN同步通过 all_gather 原语实现全局统计量聚合,既保证了多卡训练的一致性,又通过优化通信量避免了性能瓶颈。
2025-03-29 08:10:24
302
转载 GPU Utilization/SM Activity/SM Active/SM Occupancy
对应 DCGM 的 DCGM_FI_PROF_GR_ENGINE_ACTIVE,表示在一个时间间隔内 Graphics 或 Compute 引擎处于 Active 的时间占比。Active 时间比例越高,意味着 GPU 在该周期内越繁忙。该值比较低表示一定没有充分利用 GPU,比较高也不意味着已经充分利用 GPU。
2025-03-29 06:22:45
215
原创 Token压缩思路和代码赏析(ToMe: TOKEN MERGING: YOUR VIT BUT FASTER)
简单来说把一个token区别拆分成a, b = metric[…, ::2, :], metric[…, 1::2, :]这两部分,然后两部分做bipartite soft matching。n2。
2025-03-18 21:17:37
485
原创 稀疏矩阵乘法非零个数的期望
n*n的稀疏矩阵,平均每行每列都有m个非0的数,n>>m。如果A和B都是上述类型矩阵,那么C=A@B ,C平均每行有多少个非0的数据?
2025-03-09 14:52:27
928
原创 Gumbel Softmax重参数和SF估计(Score Function Estimator,VAE/GAN/Policy Gradient中的重参数)
We derive the probability density function of the Gumbel-Softmax distribution with probabilities π1,…,πk\pi_1, \ldots, \pi_kπ1,…,πk and temperature τ\tauτ. We first define the logits xi=logπix_i = \log \pi_ixi=logπi, and Gumbel samples g1,…,gkg_1, \ld
2025-02-19 19:03:25
794
原创 Leetcode 523. Continuous Subarray Sum Prefix 坑
【代码】Leetcode 523. Continuous Subarray Sum Prefix 坑。
2025-02-16 11:05:14
416
原创 nn.EmbeddingBag把offsets之间的进行归约,offsets从0开始
在nn.EmbeddingBag中,mean模式会对输入索引对应的嵌入向量进行平均计算。根据输入索引查找对应的嵌入向量。根据偏移量将输入索引分成多个序列。对每个序列的嵌入向量进行平均计算。输出归约后的嵌入向量。通过这种方式,可以高效地处理变长序列的嵌入操作,并进行归约计算。
2025-02-15 13:45:36
835
原创 对PosWiseFFN的改进: MoE、PKM、UltraMem
如果Attention的维度是d_model,通常PosWiseFFN模型结构就是2个矩阵中间加个Gelu,d_ff是d_model的4倍:第1个矩阵的weight是[d_model, 4*d_model],第2个矩阵的的weight是[4*d_model, d_model]。
2025-02-14 23:51:15
1171
原创 RAG入门: RetroMAE、BGE、M3、MemoRAG
Lexical Retrieval:给定一个文本,获取语言模型最后一层上所有位置的隐状态,每个位置对应原始文本中的一个token,依次将每个位置的隐状态通过一个全连接层+Relu函数得到该token的权重,将所有每个token的隐状态*对应的权重再求和作为文本的稀疏表征(如果文本包含两个以上相同的token,则该token的权重取其中最大的权重值)。很熟悉的感觉吧,很像tfidf,也跟RetroMAE-V2的第二部分特征很相似,这部分特征更在意文本中各个token的信息,重要的token就赋予更高的权重。
2025-02-13 20:44:26
797
转载 匈牙利匹配算法 linear_sum_assignment
值得注意的是,在DETR的代码(https://github.com/facebookresearch/detr/blob/29901c51d7fe8712168b8d0d64351170bc0f83e0/d2/detr/detr.py#L10)中,的。
2025-02-13 18:44:20
253
转载 LLM大模型对超长文本处理的技术方案汇总(NBCE、Unlimiformer)
理论上,大模型可以处理任意长度的问题长度,但受限于GPU显存和算力,过长的文本会使GPU出现OOM内存溢出及耗时过高,用户等待时长过长问题。目前工业界对超长文本的处理,大部分通过RAG的方式处理,也是业界比较流行的,但除RAG外其实也有两大类方法,主要是按是否需要重新对齐大模型的方式分为:不训练LLM大模型和训练LLM大模型参数,其实RAG也算是不需要重新对大模型训练的一种,RAG相关本文就不再赘述。
2025-02-11 23:45:15
1005
原创 s1: Simple test-time scaling 阅读笔记
s1: Simple test-time scaling 实际上就是在s1K数据集上对Qwen2.5-32B-Instruct语言模型进行有监督微调(),并为其配备 “预算强制” 功能后,我们的模型s1-32B在竞赛数学问题(MATH 和 AIME24)上的表现比o1-preview高出27%
2025-02-10 11:41:50
393
原创 Continous Batching、Inflight Batching、Prefill Decode分离、SpecDecode
简单来说就是batch内的请求长度和回复长度长短不一,存在Early-Finished的情况,但是空占着GPU的情况。
2025-02-07 18:51:17
594
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人