自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(774)
  • 资源 (1)
  • 收藏
  • 关注

原创 [论文笔记] 开发机conda install无法安装 代理配置以及jupyter使用

重启开发机,打开jupyter文件,选择kernel=xin。再次重启terminal,并下载conda,就可以下载了。复制这段代码到.bashrc文件中。

2025-05-16 11:53:11 18

原创 浏览器复制会报错:Unable to read from the browser‘s clipboard. Please make sure you have granted access for t

你在浏览器中复制内容时遇到“Unable to read from the browser's clipboard”报错,通常是因为。现代浏览器(如Chrome、Firefox、Edge等)出于安全考虑,默认禁止网站随意读取剪贴板内容。当网站尝试复制或粘贴时,需用户明确授权。报错表明:你首次使用该网站的复制功能时,拒绝了权限弹窗;浏览器全局设置禁用了剪贴板权限;网站未使用HTTPS(部分浏览器要求安全连接);广告拦截插件或隐私保护工具阻止了权限请求。

2025-05-14 15:43:17 319

原创 2025年北京市积分落户申报

需满足条件:连续7年北京社保取得学历(学位)期间的社保积分、居住积分与学历(学位)积分,需根据实际情况扣除对应年限的社保缴纳及居住积分,具体详见下表。如小A在工作期间就读在职硕士研究生,并获得了学位证(单证):可获得15分教育背景积分,同时(3x4=12分)(0.5x4=2分)。职住区域加分需要满足在城六区外职住区域指标2018年1月1日起算,按满1年算积分,;申请人,必须在本市其他行政区。积分标准在有详细说明,点击链接可直接跳转查看。

2025-05-12 15:25:45 303

原创 [论文笔记] 超详细解读DeepSeek v3全论文技术报告

(可以理解为有多个专家,但每个token只会选择一部分专家进行推理,所以一个token的预测,只会用到37B参数),DeepSeek-V3 使用了。来实现高效的流水线并行(减少空泡情况,计算和通信同时进行,提升每张显卡的利用率)。对DeepSeek-V3进行了两阶段的上下文长度扩展。,在不使用采样loss帮助下,让每个专家访问次数接近)的。2、在第二阶段,进一步扩展到128K。阶段,以使其与人类偏好保持一致,并进一步释放其潜力。个不同的高质量token训练,然后进行监督微调和。,MoE)语言模型,总共。

2025-05-08 17:42:45 398 1

原创 [linux] vim 乱码

1. 确保终端支持中文 设置终端编码为 UTF-8,运行:如果不是 UTF-8(如 ),你可以设置为:2. 确保 Vim 使用 UTF-8 编码 打开 或输入以下命令:如果你经常编辑 GBK 编码的文件(如 Windows 系统下生成的中文文本),可以让 Vim 自动尝试解码。如果你使用 或其他图形界面版本,确保字体支持中文,例如:或者设置为系统中已有的中文字体,例如:确认你用的是支持多语言和 Unicode 的 Vim,可以用以下命令检查:如果没有 ,建议升级 Vim。如果你要保

2025-04-17 11:54:19 200

原创 [论文笔记] Deepseek技术报告解读: MLA&MTP

Deepseek技术报告解读: MLA&MTP

2025-04-02 16:52:46 207 1

原创 [linux] 怎么切换为用户状态:

curl -s http://baidu-ide.bj.bcebos.com/platform/script/host-script/install-agent.sh | bash -s -- -g cb022d85-a146-465b-9b93-a2a50c340c73 -c ad91a46d5f0e957c982684d2ecaa1f5c -v 1.8.401.70.0.9 /opt/compiler/gcc-8.2/lib/ld-linux-x86-64.so.2 Warning :Forbid Us

2025-03-03 19:34:45 423

原创 [论文笔记] GRPO & DPO

GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data),其中包含一个“更好”(preferred)的样本 A+ 和一个“较差”(dispreferred)的样本 A−,通常来源于模型生成的多个候选结果,由人工或规则标注优劣。Dkl(πθ||πref)是模型 πθ 与参考模型 πref之间的 KL 散度,控制模型偏离程度。GRPO 对 DPO 进行扩展,引入 KL 正则项,以更灵活地控制模型的生成质量。直接优化模型,使其偏向人类偏好的样本,而远离不符合偏好的样本。

2025-02-07 11:06:22 759 1

原创 [论文笔记] Deepseek-R1&R1-zero技术报告阅读

背景与目标报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。(纯 RL,无 SFT 冷启动数据)和(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。核心思路直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。

2025-02-05 20:09:04 1173 1

原创 [linux] linux获取本机ip

【代码】[linux] 获取本机ip。

2025-01-21 16:11:29 137

原创 [论文笔记] 中文推理评估类测试集

地址:https://github.com/Chenny0808/ape210k。

2024-12-24 15:44:10 91

原创 [论文笔记] 从生成到评估:LLM-as-a-judge 的机遇与挑战

论文提出了一个全面的分类框架,分为以下三个维度:

2024-12-24 11:04:19 500 1

原创 [论文笔记] 近线生成 和 在线生成

指在请求到达之前,通过提前生成可能需要的数据或答案,并将其缓存,待请求到来时直接使用或快速调整。这种方式通常结合模型离线计算和缓存策略使用。

2024-12-03 16:03:33 84

原创 [linux] 安装go

【代码】[linux] 安装go。

2024-11-28 20:17:55 193 1

原创 snipaste截图时隐藏浏览器窗口

2024-11-27 17:38:25 163

原创 [论文笔记] Pangea:完全开放的多语言多模式法学硕士,涵盖 39 种语言

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages1. 背景与目的Pangea 旨在开发一个支持 39 种语言的完全开源多语言、多模态大模型 (MLLM),弥补语言技术领域的资源不均问题,特别是低资源语言的不足。目标是为多语言、多模态研究提供开放的工具和数据集,以促进语言包容性和公平性。2. 模型架构:Pangea-7BPangea-7B 是一个拥有 70 亿参数的语言模型,能够处理文本和图像的多模态输入。这使得它

2024-11-01 15:20:53 164

原创 [论文笔记] bleu值的计算方式

然后用这个命令就行,ref是正确答案,cand是模型预测的答案。

2024-10-31 15:22:56 152

原创 [论文笔记] 大模型评测:lm-evaluation-harnessPublic(eval-big-refactor)

1、添加SeaExam中的m3exam和mmlu测试集。英语+东南亚语:SeaLLMs/SeaExam。

2024-10-28 15:55:31 246

原创 [论文笔记] llama factory 跑LLama3.2 SFT config报错

【代码】[论文笔记] llama factory 跑LLama3.2 SFT config报错。

2024-10-22 15:41:46 432

原创 [论文笔记] CLIP(Contrastive Language-Image Pre-Training)

Transformer: 这部分NLP选手应该很熟悉,CV选手简单了解下,首先文本经过tokenize得到一个新的张量,比如 [“a diagram”, “a dog”, “a cat”] ,经过tokenize得到的(3,77)的张量,经过一个embeding层得到(3,77,512)的tensor,添加位置编码(nn.Parameter)后送入模型,最后模型输出的到(1,512)的特征。分别获得特征后,将两个特征进行余弦相似度计算,分别获得图像相对文本的相似度矩阵,和文本相对图像的相似度矩阵。

2024-10-21 17:14:22 212 1

原创 [论文笔记] llama-factory 微调qwen2.5、llama3踩坑

【代码】[论文笔记] llama-factory 微调qwen2.5、llama3踩坑。

2024-10-18 12:21:58 1568 4

原创 [论文笔记] Megatron LM环境安装

概述:注意其他集群的TransformerEngine包,不可以直接搬运过来install,因为cmake文件有不同。。细节注意:安完环境时,重新启一个terminal测试——————————————————修改transformer_engine——————————————————————————————————————测试apex——————————————————————注意,安完apex的时候需要测试,能import amp_C才行!!如果⬆️安装成功, 就不用看下面的了。。

2024-10-15 15:39:28 743

原创 [linux] error: RPC failed; curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet.e

error: RPC failed; curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet. error: 5233 bytes of body are still expected fetch-pack: unexpected disconnect while reading sideband packet fatal: early EOF fatal: fetch-pack: invalid index-pack o

2024-10-15 15:20:38 1033

原创 [论文笔记] llama3.2 蒸馏

软标签蒸馏(Soft Label Distillation)用教师模型的输出类别logit值/输出概率p(软标签)指导学生模型学习。使用温度系数 T 调节概率平滑,采用KL散度作为损失函数。硬标签蒸馏(Hard Label Distillation)用教师模型的预测类别标签(硬标签)训练学生模型。直接用交叉熵损失函数,简单但信息量较少。特征蒸馏(Feature Distillation)学生模型通过对齐教师模型的中间层特征来学习。更丰富的语义信息,适用于计算机视觉任务。

2024-10-15 14:53:33 986 1

原创 [linux] 报错ssh-add /root/.ssh/id_ed25519 Could not open a connection to your authentication agent.

说明 SSH 代理未启动或未正确配置。

2024-10-15 14:23:54 259

原创 [论文笔记] Let‘s Verify Step by Step

"Let's Verify Step by Step" 是 OpenAI 的一项研究,探讨如何通过过程监督(Process Supervision)和结果监督(Outcome Supervision)来提高大型语言模型在复杂多步推理任务中的可靠性。

2024-10-12 18:14:22 501 1

原创 Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

1. **背景**:大语言模型在解决复杂任务方面已经有了很大的进步,但在**推理**(即模型训练好之后的实际使用)阶段,通常只让模型尝试一次。论文提出,通过增加模型为同一个问题生成的**样本数量**(即多次运行模型),可以提高模型的表现。- **逻辑检查**:对于数学或推理类的问题,可以通过逻辑验证的方式来判断答案的合理性。总的来说,论文中的验证机制旨在提高生成解答的**精确度**,通过自动化的验证手段来帮助模型从多个候选答案中筛选出最优解。- **精度**:在生成的多个解答中,能否选出正确答案?

2024-09-30 01:47:18 227

原创 [论文笔记] LLaMA3.2

除了现有的支持文本的外,Llama 3.2 还支持多模式用例。现在,您可以在 Amazon Bedrock 中使用 Meta 中的四个新 Llama 3.2 模型(90B、11B、3B 和 1B)来构建、试验和扩展您的创意。——Meta 最先进的模型,非常适合企业级应用。该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。它还引入了图像推理功能,可以执行图像理解和视觉推理任务。该模型非常适合以下用例:图像字幕、图像文本检索、视觉基础、视觉问答和视觉推理以及文档视觉问答。

2024-09-27 15:08:39 599 1

原创 [论文笔记] Chain-of-Thought Reasoning without Prompting

模型首先识别出说话者有3个苹果,然后识别出爸爸比说话者多2个,即5个苹果,最后将这两个数量相加得到总数8个苹果。这个例子表明,通过探索替代的解码路径,我们可以从预训练的LLMs中提取出有用的推理链,即使没有明确的提示或问题构造。这个例子表明,通过探索替代的解码路径,我们可以从预训练的LLMs中提取出有用的推理链,即使没有明确的提示或问题构造。当然,以下是一个使用CoT(Chain-of-Thought)解码方式的例子,它展示了如何从预训练的大型语言模型(LLMs)中激发推理路径。

2024-09-26 15:57:32 411

原创 [论文笔记] UNDERSTANDING AND IMPROVING LEXICAL CHOICE IN NON-AUTOREGRESSIVE TRANSLATION理解和改进非自回归翻译中的词汇选择

知识蒸馏(Knowledge Distillation, KD)对于通过自回归教师模型简化原始数据来训练非自回归翻译(NAT)模型至关重要。研究发现,KD训练的副作用是将教师模型中的低频词词汇选择错误传播到NAT模型。为了解决这个问题,提出了一种方法,通过比较NAT模型和原始数据中嵌入的词汇选择,引入额外的Kullback-Leibler散度项,使NAT模型能够恢复在蒸馏数据中丢失的低频词有用信息。实验结果表明,该方法在不同的语言对和模型架构中都有效,能够显著提高NAT模型的性能。

2024-09-26 14:07:38 118 1

原创 [论文笔记] 多语言配比的自动化超参搜索

【代码】[论文笔记]

2024-09-24 19:17:10 276

原创 [论文笔记] MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models

尝试:根据当前策略尝试做菜(训练模型)。反馈:收集做菜的结果(模型表现)。分析:分析哪些食材(数据集)有用,哪些需要调整。调整:根据分析结果调整食材的使用策略(数据采样概率)。迭代:重复这个过程,直到找到最佳策略。通过这种动态调整和持续优化的方法,MOS能够有效地提升大型语言模型在特定任务上的性能。

2024-09-20 17:13:33 794 1

原创 [论文笔记] LLM大模型清洗篇——1、规则清洗&去重&模型清洗

gopher、C4、Fineweb 论文的规则。

2024-09-13 16:40:56 307

原创 [论文笔记] LLM多语言 计算bleu的规范

【代码】[论文笔记]

2024-09-13 16:19:16 179

原创 [论文笔记] LLM端侧小模型篇——1、剪枝量化的latency

MLC-LLM:编译器方式推理,跨平台可用推理框架。

2024-09-13 15:50:25 290

原创 [论文笔记] LLM大模型剪枝篇——4、Qwen2系列剪枝实现

【代码】[论文笔记]

2024-09-12 18:57:53 1119 1

原创 [论文笔记] Skywork-Math: Data Scaling Laws for MathematicalReasoning in Large Language Models

本文研究了可能提升大型语言模型(LLM)数学推理能力的潜在因素。我们认为,

2024-09-10 10:51:20 292 1

原创 [论文笔记] LLM大模型剪枝篇——1、调研 LLM Pruning and Distillation in Practice: The Minitron Approach

作者是 Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz 和 Pavlo Molchanov。论文发表于 2024 年 8 月 27 日,是关于如何通过剪枝和蒸馏技术压缩大型语言模型(LLM)的研究。

2024-09-07 22:32:52 259 1

原创 [linux] 报错 ModuleNotFoundError: No module named ‘llama‘

【代码】[linux] 报错 ModuleNotFoundError: No module named 'llama'

2024-09-06 17:05:04 928

原创 [论文笔记] LLM大模型剪枝篇——2、剪枝总体方案

2、对前N%冗余层,直接删除full layer。N=20(N:剪枝崩溃临界点,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%)对后(P-N)%冗余层,删除attention layer。1、基于BI分数选择P%的冗余层,P=60~80。1、定向结构化剪枝:最优子结构。根据剪枝后效果决定是否修复训练。剪枝目标:1.5B —> 100~600M。

2024-09-06 11:59:38 481 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除