心心喵-CSDN博客

原创 [大A量化专栏] 看盘界面设置（未完待续）

https://zhuanlan.zhihu.com/p/688723907https://zhuanlan.zhihu.com/p/739145164

2025-06-09 17:45:17 32

原创 [大A量化专栏] 基础代码参考

https://zhuanlan.zhihu.com/p/10279202099回测示例 | 迅投知识库文心智能体平台AgentBuilder | 想象即现实

2025-06-06 18:19:12 20

原创 [大A量化专栏] VMware (mac本地跑QMT)

夸克网盘分享https://zhuanlan.zhihu.com/p/1905596508121864150【2024最新】VMware安装使用教程（超详细）从零基础入门到精通，看完这一篇就够了_vmware安装教程-CSDN博客

2025-06-06 17:42:13 76

原创 [大A量化专栏] QMT常见问题Q&A

QMT系统支持将策略以加密的模式进行导出或导入，用户可以便捷的迁移系统本地策略。。

2025-06-06 16:23:39 49

如果该策略年化波动15%，则预期超额收益 = 1.5 × 15% = 22.5%（加无风险利率后为总收益）。虽然策略A收益更高，但策略B的单位风险收益效率是A的1.7倍，长期持有体验更稳定（回撤小）。日频策略用日收益率计算（需年化：夏普×√252，252为A股年交易日数）（Calmar，收益/最大回撤）综合评估策略风险收益比。：年化收益25%，波动率30%，无风险利率3%：年化收益18%，波动率12%，无风险利率3%：策略超额收益（超出国债等无风险收益的部分）：策略收益的波动幅度（标准差，代表风险大小）

2025-06-06 15:53:59 68

原创 [linux] git强行拉取并覆盖

（操作前请确保你理解每个命令的作用，误操作可能导致代码丢失）若确定要完全放弃本地修改，推荐使用方法一。如果需要保留部分修改，建议使用。会永久删除所有未提交的修改。

2025-05-23 12:05:58 251

原创 [论文笔记] KTO：作为前景理论优化的模型对准

示例：假定一场赌博以80%的概率返回100美元，20%的概率返回0美元。计算期望可知为80美元。但人们可能会接受60美元来避免这场赌博，尽管他们确定60美元小于80美元。正反馈的阈值是1只需二元标注，适合企业用现有业务数据（如客服对话的成功/失败标记）快速训练模型29。传统方法可能让模型过度拟合人类偏好中的非理性部分（例如“厌恶风险”），而KTO通过前景理论更均衡地模拟人类决策57。

2025-05-23 11:31:33 38 1

原创 [论文笔记] 开发机conda install无法安装代理配置以及jupyter使用

重启开发机，打开jupyter文件，选择kernel=xin。再次重启terminal，并下载conda，就可以下载了。复制这段代码到.bashrc文件中。

2025-05-16 11:53:11 68

原创浏览器复制会报错：Unable to read from the browser‘s clipboard. Please make sure you have granted access for t

你在浏览器中复制内容时遇到“Unable to read from the browser's clipboard”报错，通常是因为。现代浏览器（如Chrome、Firefox、Edge等）出于安全考虑，默认禁止网站随意读取剪贴板内容。当网站尝试复制或粘贴时，需用户明确授权。报错表明：你首次使用该网站的复制功能时，拒绝了权限弹窗；浏览器全局设置禁用了剪贴板权限；网站未使用HTTPS（部分浏览器要求安全连接）；广告拦截插件或隐私保护工具阻止了权限请求。

2025-05-14 15:43:17 465

原创 2025年北京市积分落户申报

需满足条件：连续7年北京社保取得学历（学位）期间的社保积分、居住积分与学历（学位）积分，需根据实际情况扣除对应年限的社保缴纳及居住积分，具体详见下表。如小A在工作期间就读在职硕士研究生，并获得了学位证（单证）：可获得15分教育背景积分，同时（3x4=12分）（0.5x4=2分）。职住区域加分需要满足在城六区外职住区域指标2018年1月1日起算，按满1年算积分，；申请人，必须在本市其他行政区。积分标准在有详细说明，点击链接可直接跳转查看。

2025-05-12 15:25:45 1590

原创 [论文笔记] 超详细解读DeepSeek v3全论文技术报告

（可以理解为有多个专家，但每个token只会选择一部分专家进行推理，所以一个token的预测，只会用到37B参数），DeepSeek-V3 使用了。来实现高效的流水线并行（减少空泡情况，计算和通信同时进行，提升每张显卡的利用率）。对DeepSeek-V3进行了两阶段的上下文长度扩展。，在不使用采样loss帮助下，让每个专家访问次数接近）的。2、在第二阶段，进一步扩展到128K。阶段，以使其与人类偏好保持一致，并进一步释放其潜力。个不同的高质量token训练，然后进行监督微调和。，MoE）语言模型，总共。

2025-05-08 17:42:45 417 1

原创 [linux] vim 乱码

1. 确保终端支持中文设置终端编码为 UTF-8，运行：如果不是 UTF-8（如），你可以设置为：2. 确保 Vim 使用 UTF-8 编码打开或输入以下命令：如果你经常编辑 GBK 编码的文件（如 Windows 系统下生成的中文文本），可以让 Vim 自动尝试解码。如果你使用或其他图形界面版本，确保字体支持中文，例如：或者设置为系统中已有的中文字体，例如：确认你用的是支持多语言和 Unicode 的 Vim，可以用以下命令检查：如果没有，建议升级 Vim。如果你要保

2025-04-17 11:54:19 252

原创 [论文笔记] Deepseek技术报告解读: MLA&MTP

Deepseek技术报告解读: MLA&MTP

2025-04-02 16:52:46 224 1

原创 [linux] 怎么切换为用户状态：

curl -s http://baidu-ide.bj.bcebos.com/platform/script/host-script/install-agent.sh | bash -s -- -g cb022d85-a146-465b-9b93-a2a50c340c73 -c ad91a46d5f0e957c982684d2ecaa1f5c -v 1.8.401.70.0.9 /opt/compiler/gcc-8.2/lib/ld-linux-x86-64.so.2 Warning :Forbid Us

2025-03-03 19:34:45 429

原创 [论文笔记] RL对齐：GRPO & DPO & KTO

GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data)，其中包含一个“更好”（preferred）的样本 A+ 和一个“较差”（dispreferred）的样本 A−，通常来源于模型生成的多个候选结果，由人工或规则标注优劣。Dkl(πθ||πref)是模型 πθ 与参考模型 πref之间的 KL 散度，控制模型偏离程度。GRPO 对 DPO 进行扩展，引入 KL 正则项，以更灵活地控制模型的生成质量。直接优化模型，使其偏向人类偏好的样本，而远离不符合偏好的样本。

2025-02-07 11:06:22 837 1

原创 [论文笔记] Deepseek-R1&R1-zero技术报告阅读

背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。（纯 RL，无 SFT 冷启动数据）和（在 RL 前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。核心思路直接在基础模型上应用大规模强化学习，利用规则设计的奖励机制（包括准确性奖励和格式奖励）激励生成长链思维（CoT）。通过拒绝采样和后续的监督微调，进一步改善模型输出的可读性和对齐人类偏好。

2025-02-05 20:09:04 1183 1

原创 [linux] linux获取本机ip

【代码】[linux] 获取本机ip。

2025-01-21 16:11:29 142

原创 [论文笔记] 中文推理评估类测试集

地址：https://github.com/Chenny0808/ape210k。

2024-12-24 15:44:10 103

原创 [论文笔记] 从生成到评估：LLM-as-a-judge 的机遇与挑战

论文提出了一个全面的分类框架，分为以下三个维度：

2024-12-24 11:04:19 533 1

原创 [论文笔记] 近线生成和在线生成

指在请求到达之前，通过提前生成可能需要的数据或答案，并将其缓存，待请求到来时直接使用或快速调整。这种方式通常结合模型离线计算和缓存策略使用。

2024-12-03 16:03:33 92

原创 [linux] 安装go

【代码】[linux] 安装go。

2024-11-28 20:17:55 208 1

原创 snipaste截图时隐藏浏览器窗口

2024-11-27 17:38:25 172

原创 [论文笔记] Pangea：完全开放的多语言多模式法学硕士，涵盖 39 种语言

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages1. 背景与目的Pangea 旨在开发一个支持 39 种语言的完全开源多语言、多模态大模型 (MLLM)，弥补语言技术领域的资源不均问题，特别是低资源语言的不足。目标是为多语言、多模态研究提供开放的工具和数据集，以促进语言包容性和公平性。2. 模型架构：Pangea-7BPangea-7B 是一个拥有 70 亿参数的语言模型，能够处理文本和图像的多模态输入。这使得它

2024-11-01 15:20:53 174

原创 [论文笔记] bleu值的计算方式

然后用这个命令就行，ref是正确答案，cand是模型预测的答案。

2024-10-31 15:22:56 164

原创 [论文笔记] 大模型评测：lm-evaluation-harnessPublic(eval-big-refactor)

1、添加SeaExam中的m3exam和mmlu测试集。英语+东南亚语：SeaLLMs/SeaExam。

2024-10-28 15:55:31 255

原创 [论文笔记] llama factory 跑LLama3.2 SFT config报错

【代码】[论文笔记] llama factory 跑LLama3.2 SFT config报错。

2024-10-22 15:41:46 438

原创 [论文笔记] CLIP（Contrastive Language-Image Pre-Training）

Transformer: 这部分NLP选手应该很熟悉，CV选手简单了解下，首先文本经过tokenize得到一个新的张量，比如 [“a diagram”, “a dog”, “a cat”] ，经过tokenize得到的（3，77）的张量，经过一个embeding层得到（3，77，512）的tensor，添加位置编码（nn.Parameter）后送入模型，最后模型输出的到（1，512）的特征。分别获得特征后，将两个特征进行余弦相似度计算，分别获得图像相对文本的相似度矩阵，和文本相对图像的相似度矩阵。

2024-10-21 17:14:22 220 1

原创 [论文笔记] llama-factory 微调qwen2.5、llama3踩坑

【代码】[论文笔记] llama-factory 微调qwen2.5、llama3踩坑。

2024-10-18 12:21:58 1620 4

原创 [论文笔记] Megatron LM环境安装

概述：注意其他集群的TransformerEngine包，不可以直接搬运过来install，因为cmake文件有不同。。细节注意：安完环境时，重新启一个terminal测试——————————————————修改transformer_engine——————————————————————————————————————测试apex——————————————————————注意，安完apex的时候需要测试，能import amp_C才行！！如果⬆️安装成功，就不用看下面的了。。

2024-10-15 15:39:28 761

原创 [linux] error: RPC failed； curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet.e

error: RPC failed; curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet. error: 5233 bytes of body are still expected fetch-pack: unexpected disconnect while reading sideband packet fatal: early EOF fatal: fetch-pack: invalid index-pack o

2024-10-15 15:20:38 1061

原创 [论文笔记] llama3.2 蒸馏

软标签蒸馏（Soft Label Distillation）用教师模型的输出类别logit值/输出概率p（软标签）指导学生模型学习。使用温度系数 T 调节概率平滑，采用KL散度作为损失函数。硬标签蒸馏（Hard Label Distillation）用教师模型的预测类别标签（硬标签）训练学生模型。直接用交叉熵损失函数，简单但信息量较少。特征蒸馏（Feature Distillation）学生模型通过对齐教师模型的中间层特征来学习。更丰富的语义信息，适用于计算机视觉任务。

2024-10-15 14:53:33 1003 1

原创 [linux] 报错ssh-add /root/.ssh/id_ed25519 Could not open a connection to your authentication agent.

说明 SSH 代理未启动或未正确配置。

2024-10-15 14:23:54 272

原创 [论文笔记] Let‘s Verify Step by Step

"Let's Verify Step by Step" 是 OpenAI 的一项研究，探讨如何通过过程监督（Process Supervision）和结果监督（Outcome Supervision）来提高大型语言模型在复杂多步推理任务中的可靠性。

2024-10-12 18:14:22 510 1

原创 Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

1. **背景**：大语言模型在解决复杂任务方面已经有了很大的进步，但在**推理**（即模型训练好之后的实际使用）阶段，通常只让模型尝试一次。论文提出，通过增加模型为同一个问题生成的**样本数量**（即多次运行模型），可以提高模型的表现。- **逻辑检查**：对于数学或推理类的问题，可以通过逻辑验证的方式来判断答案的合理性。总的来说，论文中的验证机制旨在提高生成解答的**精确度**，通过自动化的验证手段来帮助模型从多个候选答案中筛选出最优解。- **精度**：在生成的多个解答中，能否选出正确答案？

2024-09-30 01:47:18 231

matlab_R2021b_maci64.dmg (mac版本，可用！)

空空如也