zhurui_xiaozhuzaizai-CSDN博客

原创 “互联网女皇”发布首份“AI趋势报告”,长达340页，精解---进行中

美国六大科技公司资本支出互联网与美国的法学硕士：北美以外的当前用户总数美国LLM用户关键技术成本随时间的cost旧金山市场份额：自行车与与自动出租车供应商按地区划分的美国LLM应用程序用户美国IT工作——人工智能与非人工智能。

2025-06-12 20:45:00 324

原创少量数据达到更好效果

九坤团队训练了13,440个大模型，发现熵最小化 (EM) 仅需一条无标签数据和10步优化，就能实现与强化学习中使用成千上万条数据和精心设计的奖励机制所取得的性能提升相当甚至更优的效果。One-shot EM 会重塑整个大模型后训练格局，使研究人员重新思考强化学习的必要性。

2025-06-10 20:07:22 125

在对话式检索场景中，用户输入的query可能存在歧义、遗漏、共指、错别字等问题，导致系统无法准确捕捉用户意图；query重写（Conversational Query Reformulation, CQR）是一种常用解决方案，核心思想是将带上下文的用户query重写为自包含（能独立表达完整查询意图的文本）形式，再去调用检索器处理。重写后的query显式包含上下文中隐含的信息，并且在实现过程中可以充分复用现有成熟的检索技术。Search-R1是更通用的推理+搜索模型，未考虑搜索工具的业务特性；

2025-06-10 18:09:43 185

原创模型训练-关于token【低概率token, 高熵token】

下图是作者的统计结果，可见基础模型中初始熵较高的 token 在 RL 后往往表现出更大的熵增，这与三中的实验结论不谋而合，表明 RL 带来推理性能提升的原因之一，很可能就是因为高熵 token 的不确定性更强了，提高了大模型推理的灵活性。这一关系清晰地表明，词元概率越低，其梯度贡献越大，反之则越小。可见在 RL 训练过程中，尽管与基础模型的重叠逐渐减少，但在收敛时（第 1360 步），基础模型的重叠率仍保持在 86% 以上，这表明 RL 训练在很大程度上保留了基础模型的高熵 token。

2025-06-10 17:54:10 1006

原创解决模型幻觉问题&基本指令介绍

用 DeepSeek 写论文时，阻止其乱编文献的方法，还有一系列超实用的论文写作指令，助你高效产出优质论文。

2025-03-12 11:21:39 1222

原创从GPU架构到CUDA

是指从发出指令到最终返回结果中间经历的时间间隔。，就是单位之间内处理的指令的条数。

2025-03-12 11:07:48 976

原创智能体agent技术介绍与产业分析

简单 LLM 与 AI Agent 智能体之间的核心差异体现在系统提示词（System Prompt）上。在 LLM 的情境中，系统提示词是在模型开始处理用户查询之前，提供给模型的一系列指令和背景信息。可以在系统提示词中明确 LLM 所应展现的 AI Agent 智能体行为。以下是一些常见的 AI Agent 智能体模式，它们可以根据您的具体需求进行调整：工具使用：AI Agent 智能体判断何时应将查询导向适当的工具，或者何时依赖自身的知识库。

2025-03-12 11:07:03 904

原创 MCP协议

MCP（Model Context Protocol，模型上下文协议）是由 Anthropic 推出的一种开放标准，旨在统一大型语言模型（LLM）与外部数据源和工具之间的通信协议。MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题，MCP 使得 AI 应用能够安全地访问和操作本地及远程数据，为 AI 应用提供了连接万物的接口。

2025-03-12 11:03:44 2575

原创 deepseek系列模型探索

DeepSeek系列论文探索

2025-02-14 18:25:58 1036

原创策略梯度优化之TRPO/PPO/AC/A2C/GRPO

前文讲到，神经网络训练时，需要的数据是独立同分布的，为了打破数据之间的相关性，DQN和DDPG的方法都采用了经验回放的技巧。然而经验回放需要大量的内存，打破数据的相关性，经验回放并非是唯一的方法。对于每个回合内的每个t，我们都算一下新策略和旧策略的KL散度，这样可以确保搜索参数的区域小，在比回合更小的粒度（iteration粒度）上调整策略。这是因为我们对于输入的同一个状况，由于输出要具有一定随机性的存在，那么其实这些所有可能所能获得的Reward的平均值就是Vθ，这就是Critic的含义。

2025-02-08 11:00:37 1329

原创 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

deepseek-R论文阅读翻译

2025-02-07 14:27:17 643

原创测试时计算策略(BON, stepwiseBON, beamsearch, lookahead,混合方法，计算最优扩展,过程奖励模型引导，多数投票)

测试时计算策略

2024-12-25 17:10:28 1302

原创续训优化,WSD/Cooldown/SWA/sfo

cosine_decay续训优化问题

2024-12-23 20:06:12 997

原创强化学习进化之路(PPO-＞DPO-＞KTO-＞ODPO-＞ORPO-＞simPO)

DPO，PPO，ORPO，ODPO，KTO, simPO

2024-11-27 14:41:17 6294 2

原创 python请求websocket

【代码】python请求websocket。

2024-11-19 10:53:54 314

原创为什么decoder-only

总而言之，decoder-only 在参数量不太大时就更具有更强的zero-shot性能、更匹配主流的自监督训练范式；而在大参数量的加持下，具有了涌现能力后、可以匹敌encoder-decoder做finetuning的效果；在In Context的环境下、又能更好地做few-shot任务。decoder-only 架构符合传统的 Language Model 的模式。

2024-10-10 17:31:20 1316

原创 leetcode---素数,最小质因子，最大公约数

方法1：依次判断能否被n整除即可，能够整除则不是质数，否则是质数方法2：假如n是合数，必然存在非1的两个约数p1和p2，其中p1<=sqrt(n)，p2>=sqrt(n)。方法3：等于 6x-1 或者 6x+1，其中 x 是大于等于1的自然数。

2024-10-10 16:39:11 1275

原创 MLP优化KAN

函数 f 的定义域是一个n维的闭区间[0, 1]的笛卡尔积，值域是实数集合R。简单来讲，函数 f 接受一个n维向量作为输入，并将其映射到实数集合R中的一个数。每个维度的取值范围都是[0, 1]，所以输入向量的每个分量都是在[0, 1]内取值的。

2024-10-10 16:35:37 1183

原创知识蒸馏介绍

知识蒸馏（knowledge distillation）是模型压缩的一种常用的方法，不同于模型压缩中的剪枝和量化，知识蒸馏是通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期达到更好的性能和精度。最早是由Hinton在2015年首次在文章《Distilling the Knowledge in a Neural Network》中提出并应用在分类任务上面，这个复杂模型我们称之为teacher（教师模型），小模型我们称之为Student（学生模型）。

2024-10-10 16:30:04 1632

原创 Model-based RL&动态规划(基于价值、基于策略，泛化迭代)

对于马尔可夫决策过程（MDP），在不知道环境的状态转移函数和奖励函数下（或者是known MDP，但环境太大太复杂无法去使用）就使用无模型的强化学习算法和基于模型的强化学习算法算出最优策略和最优价值函数（控制），或者求出某一策略下的价值函数（预测）。因此，对于上面的问题，不一定让策略评估和策略改进反复交替多次，而是用贝尔曼最优方程，一次性确定各个状态的 Vπ(s)，再用这些最优状态值函数Vπ(s)计算动作值函数 Q(s,a) ，最后取Q(s,a)最大的动作，这就是值函数迭代算法。

2024-09-09 16:31:07 1239

原创强化学习策略更新方法on-policy与off-policy(重要性采样，q-Learning，sarsa)

Off-policy方法的典型例子是：Q-learning，DQN（Deep Q-Networks），DDPG（Deep Deterministic Policy Gradient），SAC（Soft Actor-Critic）等。On-policy方法的典型例子是：REINFORCE算法，Actor-Critic算法，PPO（Proximal Policy Optimization，近端策略优化）算法等。策略更新方法可以分为两类：On-policy（在线策略）和Off-policy（离线策略）。

2024-09-09 10:50:19 1278

原创 RNN发展（RNN/LSTM/GRU/GNMT/transformer/RWKV）

RNN/LSTM/GRU/GMNT/Transformer/RWKV

2024-09-06 14:34:37 1483

原创语音平台调研

是以D-对话为核心的一站式交互定制平台，覆盖多应用场景和第三方内容资源，内置语音技能库，为物联网、移动互联网和互联网的开发者，提供单项技术服务和一站式对话交互定制解决方案。作为一个全链路智能对话开放平台，DUI提供的，不仅是基于思必驰智能语音语言技术的对话功能，更包括开发者在定制对话系统时所需要的综合服务，如GUI定制、版本管理、私有云部署等，让开发者可以完全依据需求随心所欲定制对话交互系统。两大协议连通起来的对话核心系统、智能设备开放平台和技能开放平台，构成了完整DuerOS的智能生态系统。

2024-08-05 10:45:27 393

原创 RAG调研

检索增强生成（RAG）是一种使用外部知识库辅助文本生成的技术。它结合了检索与生成，通过访问外部数据库检索得到有关的信息，把检索得到的信息与query合并为新的prompt，让LLM从包含外部信息的prompt中学习知识（in-context learning）并生成正确答案。核心步骤（1）检索(Retrieval) （2）增强(Augmentation)（3）生成(Generation)

2024-07-31 11:49:06 1197

原创 NLP数据增强方法

常用的NLP数据增强方法：1、回译2、同义词替换（SR: Synonyms Replace）：不考虑stopwords，在句⼦中随机抽取n个词，然后从同义词词典中随机抽取同义词，并进⾏替换。3、随机插⼊(RI: Randomly Insert)：不考虑stopwords，随机抽取⼀个词，然后在该词的同义词集合中随机选择⼀个，插⼊原句⼦中的随机位置。4、随机交换(RS: Randomly Swap)：句⼦中，随机选择两个词，位置交换。

2024-07-25 18:36:38 1110

原创 AUC理解

一个是ROC曲线的面积另外一个是统计意义。从统计学角度理解，AUC等于随机挑选一个正样本和负样本时，模型对正样本的预测分数大于负样本的预测分数的概率。

2024-07-25 11:39:42 1488

原创分类常用的评价指标-二分类/多分类

查准率 Precision=TP/(TP+FP)」查全率Recall=TP/(TP+FN)」即为正例被判断为正例的概率TPR=TP/(TP+FN)」即为反例被判断为正例的概率FPR=FP/(TN+FP)：ACC = 1-e样本失衡时，如何评价分类器的性能好坏？使用ROC曲线ROC曲线：ROC空间是一个以伪阳性率（FPR，false positive rate）为X轴，真阳性率（TPR, true positive rate）为Y轴的二维坐标系所代表的平面。

2024-07-25 10:38:05 675

原创中文大模型数据集

2、完成融合coig以及catslu数据的指令微调，在catslu测试数据集上效果验证domain acc=0.646，

2024-07-17 15:35:09 679

原创音频数据集

下载地址：https://voice.mozilla.org/data时长：1965小时（目前为止）最早2017年发布，持续更新，该基金会表示，通过 Common Voice 网站和移动应用，他们正在积极开展 70 种语言的数据收集工作。Mozilla 宣称其拥有可供使用的最大的人类语音数据集，当前数据集有包括 29 种不同的语言,其中包括汉语，从 4万多名贡献者那里收集了近 2454 小时（其中1965小时已验证）的录音语音数据。

2024-07-17 15:32:28 4388

原创文本生成指标评估

余弦相似度::::忠实度（即生成的数据样本是否接近原始样本）TransRate::::紧凑度（即每个类的样本是否足够紧凑以进行良好区分）生成的样本与label的紧凑度Z为生成的文本embedding, Y 为label"

2024-07-17 15:10:09 1224

原创多模态大模型--音频&文本

的目标是，通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下，即使音频被压缩，我们听到的声音与原版也应该没有任何区别。Opus是一个多才多艺的音频编解码器，它适用于各种应用，从视频会议（比如 Google Meet）到在线视频流（比如 YouTube）。Opus支持的压缩比率非常灵活，从每秒6千比特到每秒510千比特都可以。EVS，是由3GPP标准化组织针对移动电话>)开发的最新编解码器。它也支持不同的压缩比率，从每秒5.9千比特到每秒128千比特。

2024-07-17 15:09:56 2277

原创扩散模型diffusion model

扩散模型

2024-05-13 15:10:09 1534

原创 prompt问题【中间不好】

prompt问题

2024-04-19 16:07:28 1439

原创 mamba-＞jamba

mamba模型

2024-04-17 15:14:48 1941

原创随机分词与tokenizer(BPE-＞BBPE-＞Wordpiece-＞Unigram-＞sentencepiece-＞bytepiece)

随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)

2023-12-08 17:58:01 3773

原创中文分词演进（查词典，hmm标注，无监督统计）新词发现

中文分析&新词发现

2023-12-08 17:13:47 1716 2

原创 generation的重复性问题

解决大模型的重复性问题

2023-11-21 16:52:24 1584

转载标准self-attention的几个变种的理解【token对token”是必须的吗】【必须有softmax吗】

在自动摘要这个任务上，标准注意力效果比较好，但是对话生成这个任务上，结果则反过来：标准的自注意力是最差的，Dense（D）和Random（R）是最好的，而当Dense和Random混合了标准的自注意力后（即 D+V 和 R+V），效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势，而几个Synthesizer看起来是标准注意力的“退化”，但事实上它们互不从属，各有优势。

2023-10-30 17:08:50 923

转载 multihead attention增强表达能力，解决“低秩瓶颈”

第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》，它明确地指出了Multi-Head Attention里边的表达能力瓶颈，并提出通过增大key_size的方法来缓解这个瓶颈。它能增加Attention的表达能力，并且不改变模型整体的hidden_size，计算量上也只是稍微增加了一点通常Q,K,V分别是对输入矩阵X进行不同W矩阵投影，

2023-10-30 16:52:12 842

原创大模型LLM相关面试题整理

LLM（Large Language Model，大型语言模型）是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择，以下是一种常见的大模型LLM的架构介绍：Transformer架构：大模型LLM常使用Transformer架构，它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成，每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构，适用于处理大规模语言数据。

2023-10-20 14:12:32 5812

python打印圣诞树，christmas

空空如也