还有你Y-CSDN博客

原创大语言模型上下文长度：发展历程、局限与技术突破

上下文长度（Context Length）是大语言模型（LLM）处理和生成文本时能够记忆和利用的信息范围，通常以词元（token）数量衡量。其重要性体现在理解复杂指令、处理长文档、提升生成质量、减少信息丢失以及支持复杂应用等方面。然而，LLM在上下文长度上受到计算复杂度、内存消耗、位置编码挑战、长距离依赖问题和训练数据限制等技术挑战的制约。为突破这些限制，研究者们在注意力机制、模型架构、位置编码和训练策略等方面进行了大量创新，如稀疏注意力、线性化注意力、FlashAttention、旋转位置编码（RoPE）

2025-05-18 20:24:32 973

原创 Embedding 模型详解：架构、训练与 LLM 的区别

Embedding 模型的核心使命是将离散的、高维的文本数据（例如单个词语、短语、句子、段落乃至整篇文档）转化为稠密的 (dense)、低维的 (low-dimensional)、连续的 (continuous) 向量表示。这些向量被称作“嵌入 (Embeddings)”。这里，“稠密”意味着向量中的大多数元素都是非零的，与稀疏表示（如 one-hot编码，其中大部分元素为零）形成对比；“低维”指的是嵌入向量的维度远小于原始文本空间（例如词汇表大小）的维度，从而实现信息的有效压缩；

2025-05-18 15:03:14 721

原创注意力机制的改进

Transformer架构中的注意力机制优化是提升模型效率和扩展处理长序列能力的关键。：每个位置仅关注固定窗口内的邻近区域（如前后各50个token）。根据输入内容动态调整注意力模式，平衡稀疏性与表达能力。通过限制每个位置仅关注特定区域，减少计算量（从。：显存占用低，适合长序列或高分辨率输入。通过数学近似或计算策略减少显存和计算量。结合硬件特性设计注意力计算方式。

2025-04-15 22:30:17 1305

原创 AutoModelForMaskedLM、BertModel 和 AutoModel比较

特性BertModelAutoModel任务目标掩码语言建模（预测 [MASK]）特征提取（无特定任务）特征提取（无特定任务）输出logits（词汇表预测）头部有 MLM 头部（linear + softmax）无头部无头部使用场景填空、词预测特征提取、下游任务微调特征提取、下游任务微调模型架构BERT + MLM 层纯 BERT自动选择（这里是 BERT）通用性特定任务（MLM）中等（仅限 BERT 架构）高（支持多种架构）

2025-04-11 17:28:21 943

原创 MIMO预编码与检测算法的对比

预编码更适合主动控制干扰（尤其下行链路），但依赖精确CSI。检测算法是被动恢复信号的最后防线，对不完美CSI更鲁棒。实际系统设计需权衡：预编码复杂度（如大规模MIMO中采用低复杂度RZF）。接收端能力（终端是否支持高复杂度检测如ML）。信令开销（CSI反馈频率与精度）。

2025-04-04 15:52:42 1112

原创思维链（Chain-of-Thought, CoT）与强化学习区别

思维链（Chain-of-Thought, CoT）与强化学习（如RLHF、DPO）在LLM中的核心区别体现在功能定位、方法论和应用场景三方面。以下是具体对比：在大型语言模型（LLM）中，思维链（Chain-of-Thought, CoT）与强化学习（RL）的联合使用主要通过以下方式实现互补与协同，从而提升模型的推理能力、训练效率和生成质量：核心机制：通过强化学习（如PPO、GRPO）对CoT生成的中间步骤进行动态调整，选择最优推理路径。例如：案例：DeepSeek-R1-Zero模型通过纯强化学习（无

2025-04-03 16:32:19 780

原创线性注意力机制

特性Linformer核心方法特征映射 + 结合律优化低秩投影压缩KKK和VVV复杂度ONO(N)ON（严格线性）ON⋅kON⋅k（近似线性）是否保留 Softmax❌ 替换为线性近似✅ 保留原始 Softmax是否需要投影矩阵❌ 无额外参数✅ 需学习EKEVE_K, E_VEKEV适用场景通用序列任务（生成、分类）超长序列（文档、图像）近似误差较高（依赖特征映射的合理性）较低（低秩假设成立时）开源实现GitHub。

2025-03-31 17:13:10 1346

原创高斯信道下分集和复用的信道容量比较

分集策略：C分集B⋅log⁡21PN0C_{\text{分集}} = B \cdot \log_2 \left(1 + \frac{P}{N_0}\right)C分集B⋅log21N0P分集在低信噪比条件下增益更大。复用策略：C复用K⋅B⋅log⁡21PKN0C_{\text{复用}} = K \cdot B \cdot \log_2 \left(1 + \frac{P/K}{N_0}\right)

2025-03-24 17:23:06 865

原创 5G通信协议相关

TDD的帧时长为10ms，其由10个子帧组成（10个子帧又分为两个长达5ms的半帧，half-frame），而每个子帧可由2个连续时隙或者由DwPTS（下行导频时隙）、GP（保护间隔）、UpPTS（上行导频时隙）组成。3GPP Release 15（2018）：第一个 5G 标准，定义了 5G NR（New Radio）和非独立组网（NSA）架构。3GPP Release 16（2020）：引入了 5G 独立组网（SA）架构，支持超低延迟和高可靠性应用（如工业物联网）。

2025-03-23 16:27:16 1263

原创 LLM中的强化学习算法——RLHF、PPO、DPO、GRPO

在RLHF的PPO阶段，通常会用到四个模型：Actor模型（即需要训练的策略模型）、Critic模型（评估状态价值的模型）、奖励模型（RM）和参考模型（Reference Model，用于约束策略更新）。因此，RLHF需要训练的是Actor和Critic模型，而RM和Reference Model通常是在之前阶段训练好的，或者在PPO阶段保持冻结。例如，RLHF中的奖励模型和参考模型在PPO阶段是否参与训练，根据参考内容，它们通常是固定的，仅Actor和Critic需要训练。

2025-03-22 15:49:49 1400

原创 DeepSeek-V3到DeepSeek-R1的演进

不依赖任何监督微调（SFT）数据，直接通过强化学习激活推理能力。：输出可读性差（如语言混杂、格式混乱），泛化能力弱于R1。：提升模型稳定性、可读性及通用能力。

2025-03-22 15:48:53 737

原创解决机器翻译重复生成问题的Trick

数学基础：重复生成本质上是概率分布Pyt∣ytPyt∣yt的偏态问题，上述方法通过调整分布（惩罚、采样、平滑）或搜索策略（束搜索、N-gram 阻塞）解决问题。效果：这些技巧在实践中显著减少重复，同时保持翻译的语义准确性。例如，N-gram 阻塞可降低重复率 20%~30%，而 Top-p 采样可提升生成多样性约 15%（BLEU 分数略有波动）。如果您有具体的 Transformer 实现代码，我可以进一步结合代码分析这些技巧的集成方式！有什么想深入探讨的吗？

2025-03-09 11:08:58 629

原创 Transformer 训练Trick

是指在训练过程中保存多个模型检查点（checkpoints），并在训练结束后对这些检查点的参数取平均值，作为最终的模型参数。是一种常用的优化算法，结合了动量（Momentum）和自适应学习率的特点。mtβ1mt−11−β1gtvtβ2vt−11−β2gt2θtθt−1−η⋅vtϵmt其中，mt是一阶矩，vt是二阶矩，η是学习率，ϵ。

2025-03-08 13:18:29 662

原创深度学习/强化学习调参技巧

深度调优策略。

2025-03-06 14:34:55 1249

原创详解旋转位置编码

通过数学公式和代码的对应关系，可以看出旋转位置编码的核心是通过复数旋转将位置信息融入查询和键向量中。，帮助你更好地理解旋转位置编码（Rotary Position Embedding, RoPE）的实现。旋转位置编码的核心思想是通过复数旋转将位置信息融入查询和键向量中，从而增强模型对序列位置的感知能力。，查询和键向量会被旋转一个与位置相关的角度，从而在计算注意力分数时引入位置信息。这种方法能够在不增加额外参数的情况下，显著提升模型对序列位置的感知能力。旋转位置编码的核心思想是通过。应用旋转位置编码后，

2025-03-04 10:14:22 877 1

原创强化学习——A2C 和 PPO网络更新的比较

和都是基于 Actor-Critic 框架的强化学习算法，但在更新 Critic 网络和 Actor 网络的方式上有显著不同。Critic 网络的目标是估计状态值函数Vs，用于评估当前策略的好坏。

2025-02-27 17:06:27 1219

原创强化学习——策略更新时机对比

通过优化Bellman方程误差（MSE Loss）更新Q网络，策略隐含表现为argmax(Q(s,a))每个算法的更新设计都平衡了样本效率、稳定性和计算成本，实际应用中需根据环境特性选择适合的更新节奏。：Actor网络直接输出确定性动作，Critic评估后立即反向传播更新策略参数。：每次环境交互后均可更新，但通常设置为1-10个梯度步骤/环境步的更新比例。：通过多环境并行实现更稳定的梯度估计，更新频率由n-step长度决定。：通过重复利用数据实现高效采样，clip机制保证了策略更新的稳定性。

2025-02-26 11:02:11 639

原创比特信噪比与信噪比SNR的换算公式

高阶调制（如 64-QAM）提高频谱效率，但需要更高的。越低（冗余越高），相同 SNR 下。在理想系统中，通常假设噪声带宽。低码率编码可补偿性能损失。越低，但需权衡频谱效率。

2025-02-24 22:34:13 805

原创块对角化预编码（Block Diagonalization, BD）原理以及实现

（从接收端角度来讲，MU-MIMO的上行建模其实和单用户MIMO是一样的，接收端采用ZF/MMSE算法即可解调得到所有数据）

2025-02-22 17:33:12 1346

原创 MIMO系统信道容量（开环与闭环）

矩阵AA∗（其中A是一个复数矩阵，A∗：由于AA∗是正定或至少是半正定的，。因为矩阵的迹等于其所有特征值的和，所以AA∗的迹也是非负实数。：在某种意义上，AA∗的迹可以看作是矩阵A各列向量之间内积的总和。具体来说，如果将A的列视为向量，则AA∗的迹实际上是这些列向量各自的模长平方和，反映了A在空间中扩展或压缩体积的能力。：在应用中，AA∗的迹常被用来衡量矩阵的总体“规模”或“能量”。例如，在信号处理领域，对于信号的自相关矩阵（通常形如AA∗。

2025-02-20 21:24:49 1215

原创 OFDM系统中高峰均比（PAPR）以及DFT-S-OFDM

DFT-S-OFDM，通过预编码技术，将信号转换成类似单载波的特性，PAPR较低，接近0 dB。，使PA能高效工作在接近饱和区，从而延长电池寿命并提升发射效率，尤其适合移动终端功率受限的上行链路场景，同时保留OFDM抗多径衰落和频域调度的优势。OFDM信号的时域波形由多个正交子载波的叠加产生，当多个子载波在某一时刻相位对齐时，信号幅度会达到极大值，导致高PAPR。通过上述分析，DFT-S-OFDM通过频域扩展和子载波映射，在保持OFDM优势的同时显著降低PAPR，适用于上行链路等对功率效率要求高的场景。

2025-02-20 17:24:19 1742

原创李雅普诺夫优化方法

李雅普诺夫优化的核心步骤定义李雅普诺夫函数衡量系统稳定性。推导漂移上界，结合惩罚项构造优化目标。在每个时隙最小化漂移加惩罚项，得到在线策略。通过参数VVV调节稳定性和最优性的权衡。优势将复杂随机优化问题分解为单时隙优化。不依赖先验统计信息，适用于非稳态系统。理论保证稳定性和最优性间隙。公式总结Qit1max⁡Qit−bitait0Qit1maxQit−bitait0LQt12∑Qi2。

2025-02-19 20:37:17 2126

原创 OFDM系统的循环前缀CP

时域信号。

2025-02-18 16:52:24 1499 1

原创预编码与信号检测——二选一？

在单用户MIMO系统中，若基站仅服务一个用户，预编码的目标转为最大化该用户的信道容量或可靠性。在多用户MIMO系统中，若基站同时向多个用户发送独立数据流，且用户间共享相同的时频资源，预编码是。在接收端应用MIMO信号检测技术（如ZF、MMSE）与发送端的预编码技术有显著区别，主要体现在。在资源受限的物联网（IoT）设备或低功耗场景中，复杂预编码算法可能不适用。基站通过预编码向多个用户同时发送独立数据流，消除用户间干扰。发送端预编码主动消除干扰，接收端只需简单检测（如匹配滤波）。

2025-02-16 15:35:37 1208

原创 BatchNorm与LayerNorm

目的: 在每个小批次（mini-batch）上对输入数据进行标准化，使得每层网络的输入分布更加稳定，减少所谓的“协变量偏移”问题。计算公式:xi−μB，其中 ϵ\epsilonϵ 是为了数值稳定性添加的一个小常数。最后，应用缩放和平移：yi=γx^i+βy_i = \gamma \hat{x}_i + \betayi=γx^i+β，这里 γ\gammaγ 和 β\betaβ 是可学习参数。示例: 如果你有一个形状为 (32, 64) 的输入张量（代表一个小批次中的32个样本，每个样本有64

2025-02-15 14:33:29 736

原创迭代、递归、回溯和动态规划

将问题分解为相互关联的子问题，并存储子问题的解避免重复计算。比如斐波那契数列，算f(5)需要f(4)和f(3)，而f(4)又需要f(3)和f(2)，此时存下中间结果能大幅减少计算量。像俄罗斯套娃，大问题拆成小问题，解法完全相同。比如算5的阶乘，先算4的阶乘，再乘以5。代码特征是函数自己调用自己，直到触发终止条件（如n=1时返回1）。每次存钱都是相同操作，用循环实现，依赖前一次结果（当前总额）推动进度。迭代是手动循环，递归是自动分解，回溯是带撤销的递归，动态规划是聪明的递归（存结果防重复）。

2025-02-14 17:44:29 351

原创信号检测和信道均衡的联系

假设一个通信系统的数学模型如下：接收信号可以表示为：y=Hs+n\mathbf{y} = \mathbf{H} \mathbf{s} + \mathbf{n}y=Hs+n其中：信道均衡的目标是从接收信号 y\mathbf{y}y 中消除信道失真 H\mathbf{H}H 的影响，恢复出接近原始发送信号 s\mathbf{s}s 的信号 s^eq\hat{\mathbf{s}}_{\text{eq}}s^eq。ZF 均衡器通过直接求逆信道矩阵 H\mathbf{H}H 来消除信道影响：s^eq=H†y

2025-02-13 21:58:37 868

原创 3×2 MIMO系统和2×2 MIMO系统对比

SVD 预编码是一种基于信道状态信息（CSI）的 MIMO 技术，通过对信道矩阵进行奇异值分解，将 MIMO 信道分解为多个并行的独立子信道（称为奇异值通道）。，尤其是在信道条件复杂或需要高可靠性的场景中。尽管两者的最大子信道数相同（均为 2），但。，为优化功率分配提供了更高的自由度。经过预编码和后编码后，等效信道变为。是对角矩阵，对角线元素为奇异值。：两者的最大子信道数相同，但。其中每个子信道的增益为奇异值。从 SVD 预编码的角度看，是酉矩阵（正交矩阵）。：信道矩阵的最大秩为。：信道矩阵的最大秩为。

2025-02-13 17:53:14 981

通信信号处理考试复习资料，备考专用，共六页纸

涉及无线信道，包括MIMO信道容量的分析、信道硬化等

空空如也