自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 降维算法之t-SNE

它是一种非常流行的技术,能够帮助我们将那些复杂的高维数据集“压扁”到二维或三维的图像上。它的魔法在于:它会尽可能地在低维度的图上保持原始数据中相似点之间的邻近关系,从而让那些隐藏的模式和簇群自然浮现。你是否曾经盯着海量数据的电子表格、复杂难解的数据集,或者一堆高维度的信息,幻想着能有一种方法让你直观地“看”懂数据背后的故事?想象一下,你的数据点是拥挤房间里的人们。t-SNE 会试图找出在那个高维“房间”里谁和谁离得近,然后在二维的“纸上”重新排列他们,使得他们原来的“友谊”(相似性)得到最大程度的保留。

2025-05-22 16:47:49 794

原创 大模型面试(一)千问模型使用了QKV bias,怎么做的,有什么作用,为什么能起作用?

QKV Bias通过在Query和Key上增加可学习的偏置项,尤其是通过。

2025-05-08 20:28:29 697

原创 使用Python访问自己的Gmail邮箱

通过本教程,你学会了如何使用Python访问Gmail邮箱。我们详细介绍了如何设置Gmail API、安装Python库、编写代码以及解决常见问题。如果验证成功,但是卡住,看看你是否启用了终端代理。

2025-03-19 16:00:59 2298

原创 GRPO中KL散度的估计

k1是简单直接的,但高方差使得它在实践中常常不够稳定。k2虽然降低了方差,但在真实数据中偏差可能会加大。k3则在保持无偏性的同时,进一步减少了方差,展现出卓越的效果。根据针对 ( p = N(0,1) ) 和 ( q = N(0.1,1) ) 的仿真结果,真实 KL 散度值约为 0.005。对比各个估计器在此情况下的偏差和标准差,不难发现 k3 凭借其出色的性能,似乎成为了最好的选择。因此GRPO实际上使用k3进行的KL散度的估计。

2025-03-15 18:31:43 2091

原创 笔记-大语言模型自我一致性

自我一致性需要效果和效率的平衡。自我一致性(Self-Consistency, SC)是大语言模型在复杂推理任务中,通过生成多条推理路径并聚合结果,最终输出稳定且逻辑闭环答案的能力。与传统的单路径推理方法不同,自我一致性侧重于模拟人类在解决复杂问题时,会从多个角度出发,验证不同解决方案的思路。其理论核心机制包含:自我一致性并非孤立存在,它与多种其他概念相互关联、相互影响。理解这些关系有助于更全面地把握自我一致性的本质及其应用场景。评估自我一致性需要设计合适的指标来量化模型在多个推理路径上的表现。提示工程(P

2025-03-08 15:56:21 1932

原创 以前的学习笔记-PPO强化学习中的广义优势估计(GAE)

通过本文的分析,我们可以看到 GAE 在 PPO 算法中的重要作用。需要注意的是,具体到LLM的训练,不同家的实现方法和手段以及各个流程的具体细节可能不同,这里是总体思想的一个概括。

2025-03-07 17:48:21 1276 2

原创 词语义打分的数据集SSDD,对于NLP研究者可能有帮助

总的来说,SSDD 是一个非常有价值的中文语义数据库,它不仅提供了近1.8万个词的主观评分,还通过词嵌入模型扩展到了百万级别。如果你对中文语义研究感兴趣,或者正在做自然语言处理相关的项目,这个数据集应该会很有帮助。

2025-03-06 23:30:05 997 2

原创 以前的BLIP学习笔记

BLIP的主要贡献可以总结为:1.多模态混合架构(MED)实现了理解与生成任务的统一处理,提高了模型的通用性和灵活性2.CapFilt数据增强机制有效解决了网络数据噪声问题,提升了训练数据的质量和数量3.BLIP在多种视觉-语言任务中取得的卓越性能,可以用于后续模型训练数据的生成。

2025-03-06 16:52:14 694

原创 Mark Github上的一个项目,VLM-R1。GRPO为什么促使MLLM在部分垂域比SFT更好的表现

最近做毕设,看到VLM-R1项目,一个有趣的现象:在Grounding任务中,GRPO训练的模型不仅展现出更稳定的训练曲线,其域外泛化能力更是远超传统SFT方法。换一个场景的文档立马露馅。在我SFT的例子看来,歪一个坐标框,后面的多半跟着歪。,说是效果很好,推理很快,在250000张图片SFT已经是可以的数字了。:模型过于关注学习标注数据中的确定性映射,遇到其他目标或其他背景时,如同突然切换语言的翻译官,陷入迷茫。:将生成过程中的错误从需要消灭的敌人,转化为指引方向的向导,这是GRPO相较SFT不同。

2025-03-05 16:14:13 1268

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除