- 博客(1390)
- 收藏
- 关注
原创 信息论与编码篇---马氏距离
马氏距离是一种考虑数据相关性的高级距离度量方法,由印度统计学家马哈拉诺比斯于1936年提出。其核心思想是通过协方差矩阵消除维度间的相关性和量纲影响,实现数据的标准化距离计算。与欧氏距离相比,马氏距离能够更准确地反映数据分布特征,其等距面呈超椭球形状。该方法特别适用于异常检测、模式识别等需要考量数据相关性的场景,但需要注意样本量要求和计算复杂度。马氏距离通过旋转坐标系和标准化处理,为多元统计分析提供了更合理的数据相似性度量方式。
2026-02-16 17:49:27
547
原创 信息论与编码篇---切比雪夫距离
切比雪夫距离是一种关注最大偏差的距离度量方法,源于国际象棋中国王的移动规则。它计算各维度绝对差值的最大值,在质量控制、实时系统、仓库管理等领域有独特应用。相比欧氏距离和曼哈顿距离,切比雪夫距离更关注最坏情况,其等高线呈正方形。典型应用场景包括棋盘游戏、自动化仓储调度、图像处理等,特别适合衡量多维度系统中的瓶颈因素。这种距离度量方式为同时运动的多维度系统提供了有效的评估工具。
2026-02-16 17:45:36
406
原创 信息论与编码篇---汉明距离
汉明距离是衡量两个等长字符串差异程度的核心指标,由理查德·汉明提出,通过统计对应位置不同符号的数量来度量信息差异。其数学定义简洁,满足非负性、对称性和三角不等式等距离公理。在通信领域,最小汉明距离决定编码方案的纠错能力,能检测d_min-1个错误或纠正⌊(d_min-1)/2⌋个错误。相比欧氏距离等连续度量,汉明距离专用于离散符号比较,在二进制情况下等同于曼哈顿距离。该度量广泛应用于信道编码、数据校验、DNA测序、密码学和机器学习等领域,是数字通信中纠错能力的理论基础。
2026-02-16 17:42:33
640
原创 信息论与编码篇---曼哈顿距离
曼哈顿距离是一种现实世界的距离度量方法,适用于网格状空间(如城市街道)。其核心特点是只能沿坐标轴方向移动,计算各维度绝对位移的总和。相比欧氏距离,曼哈顿距离对异常值更稳健,路径计算更符合实际约束(如城市导航、芯片布线)。它具有距离度量的基本性质(非负性、对称性、三角不等式),但允许存在多条等距路径。主要应用于物流配送、集成电路设计、机器学习(KNN、Lasso回归)等领域,是衡量网格空间中实际移动距离的理想工具。
2026-02-16 17:39:00
788
原创 信息论与编码篇---欧式距离
本文详细介绍了欧氏距离这一基础而重要的距离度量方法。作为最直观的空间距离概念,欧氏距离源自欧几里得几何,通过勾股定理计算两点间的直线距离。文章从几何直觉、数学定义、物理意义三个维度进行阐述,特别强调了其在信号处理中的能量度量特性、旋转不变性等核心特征。重点分析了欧氏距离与最大似然准则的等价关系,解释了其在通信系统中的关键作用。通过与其他距离度量的对比,突显了欧氏距离的独特性,并列举了其在通信、机器学习等领域的广泛应用。最后用框图总结了欧氏距离的核心逻辑和应用场景。
2026-02-16 17:35:57
752
原创 信息论与编码篇---常见的几种距离度量
本文介绍了通信、机器学习和信号处理领域常用的六种距离度量方法。欧氏距离测量直线长度,适用于高斯噪声环境;曼哈顿距离计算网格路径,对异常值不敏感;汉明距离比较二进制差异,用于编码纠错;切比雪夫距离关注最大偏差,适合棋盘类应用;马氏距离考虑数据相关性,用于异常检测;余弦距离衡量方向相似性,常用于文本分析。文章通过几何直觉、数学定义和物理意义详细说明每种距离的特点,并提供了快速选择指南,强调应根据具体应用场景选择最合适的距离度量方法。
2026-02-16 17:32:36
932
原创 信息论与编码篇---最小距离准则
最小距离准则是通信系统中的核心译码方法,基于“离谁最近判给谁”的几何直觉。其数学本质是寻找接收信号与候选码字的最小距离(欧氏或汉明距离),在AWGN信道下与最大似然准则等价。通过Voronoi图划分判决区域,该准则直观高效,但依赖高斯噪声假设且计算复杂度随码本规模增长。其优势在于物理可解释性和硬件友好性,适用于噪声干扰下的可靠信号恢复。
2026-02-16 17:29:02
625
原创 信息论与编码篇---最大似然准则
最大似然准则(ML)是一种基于观测数据的统计推断方法,其核心思想是寻找使观测结果出现概率最大的参数或假设。与最大后验概率(MAP)不同,ML不需要先验信息,仅依赖于信道模型和当前观测数据。在通信系统中,ML准则通过比较不同发送码字下接收信号的条件概率(P(y|x)),选择使该概率最大的码字作为估计值。在AWGN信道下,ML准则等价于最小欧氏距离准则。ML方法具有客观性、无需先验信息等优点,当先验等概时与MAP等价,是先验信息缺乏时的理想选择。
2026-02-16 17:09:45
313
原创 信息论与编码篇---最大后验概率准则
本文详细解析了最大后验概率准则(MAP)在通信与信号处理中的核心地位。MAP准则通过贝叶斯定理将先验信息P(x)与似然函数P(y|x)相结合,在已知接收信号y的条件下,选择使后验概率P(x|y)最大的发送码字x。文章从哲学本质、数学推导、最优性证明等方面阐述了MAP准则,并对比了其与最大似然准则(ML)的关系。通过医生诊断的类比生动说明了MAP的实际应用,同时指出了实现中的计算复杂度等难点。MAP准则作为统计决策理论的重要工具,在信道译码、图像处理和机器学习等领域具有广泛应用价值。
2026-02-16 17:05:16
331
原创 信息论与编码篇---三种译码准则
通信系统中常用的三种译码准则分别是最大后验概率准则(MAP)、最大似然准则(ML)和最小距离准则(MinDistance)。MAP基于后验概率最小化错误概率,需要先验信息;ML通过最大化似然函数进行译码,适用于先验等概情况;最小距离准则通过几何距离比较实现译码,在AWGN信道中与ML等价。三种准则各有优势:MAP理论最优,ML应用广泛,最小距离实现简单。实际工程中常将概率计算转化为几何距离比较以提高效率。
2026-02-16 16:58:28
512
原创 信息论与编码篇---前向纠错
前向纠错(FEC)是一种通过增加冗余信息实现错误自动纠正的通信技术。其核心思想是发送方在原始数据中加入额外校验信息,接收方即使收到部分错误数据,也能根据冗余信息自行恢复原始内容。典型实现方式包括简单重复码和更高效的汉明码等分组码,以及卷积码。相比检错重传机制,FEC无需反馈信道,延迟更低,特别适合广播和实时通信场景,但会降低传输效率。该技术可类比为说话时增加解释性内容,帮助对方在听不清个别字时仍能理解完整意思。
2026-02-15 22:43:54
607
原创 信息论与编码篇---检错重传
检错重传(ARQ)是一种通过检测和重传实现可靠数据传输的技术。其核心流程包括:发送方添加检错码(如CRC)后发送数据,接收方校验后通过反馈信道返回确认或重传请求。常见实现方式包括简单的停等式、效率更高的回退N步和最优但复杂的选择重传协议。该技术通过发现错误就重传的机制保证了传输可靠性,但需要双向通信且可能产生不确定延迟。其优势在于实现简单、适应性强,但在信道质量极差或广播场景下存在局限。
2026-02-15 22:42:49
385
原创 信息论与编码篇---信道编码
信道编码是在数据传输过程中加入冗余信息,使接收端能够检测或纠正传输错误的技术。核心原理如同给快递包裹附加清单,既可用于检错重传(如CRC校验),也可实现前向纠错(如卫星通信中的纠错码)。典型例子是重复码(将1编码为111),通过多数表决纠正错误,但会降低传输效率。衡量指标包括码率、纠错能力和编码增益。该技术以牺牲部分传输效率为代价,换取更高的通信可靠性,广泛应用于网络通信、移动通信和存储系统等领域。
2026-02-15 22:41:21
445
原创 信息论与编码篇---最佳不等长编码
最佳不等长编码是一种高效的无损压缩方法,通过给高频符号分配短码、低频符号分配长码来最小化平均码长。哈夫曼编码是经典实现算法,其核心步骤是反复合并最小概率符号构建码树。这种编码具有三个关键特性:概率匹配(高频短码)、前缀码(无歧义解码)和最优性(平均码长最短)。其效果相当于为常用数据分配短学号,在保证唯一可译的同时实现最高压缩效率,使平均码长逼近理论极限的信源熵值。
2026-02-15 22:39:47
837
原创 信息论与编码篇---DMS不等长编码
不等长编码定理(香农第一定理的变体)揭示了数据压缩的优化方法:通过为高频符号分配短码、低频符号分配长码(如哈夫曼编码),使平均码长L逼近信源熵H的理论下限。分组编码可进一步缩小差距,无限接近H。该定理不仅定义了无损压缩的极限(熵H),还提供了实现路径(不等长编码和分组策略),并强调前缀码的无歧义解码特性。例如,单字编码平均需5.4比特时,两字分组可降至5.25比特,逐步逼近熵值5.2比特。
2026-02-15 22:38:06
383
原创 信息论与编码篇---Kraft不等式
Kraft不等式是判断一组码字长度能否构成即时码(前缀码)的数学工具。对于二进制编码,要求各码字长度对应的2^{-li}之和≤1。类比酒店房间分配或装修预算,当总和=1时空间被完美利用,<1时仍有冗余,1则无法实现。该不等式为编码设计提供了可行性判断标准,确保码字长度组合能构成无冲突的前缀编码系统。
2026-02-15 22:36:30
738
原创 信息论与编码篇---不等长编码的唯一可译性
不等长编码的唯一可译性是指编码序列只能被唯一解码为原始符号序列。即时码(前缀码)是最强形式,要求任何码字都不是其他码字的前缀,实现即时解码;而非即时码虽可唯一译码但需回溯判断。判断方法包括检查是否存在不同符号序列产生相同编码,或使用Sardinas-Patterson算法。实际应用中推荐采用前缀码(如哈夫曼编码),既确保唯一可译性又提高解码效率。类比无标点语音,前缀码如同清晰停顿,而非即时码需上下文推断,非唯一可译码则完全无法区分。
2026-02-15 22:34:51
539
原创 信息论与编码篇---DMS等长编码
本文通过生活化类比阐述了离散无记忆信源(DMS)和等长编码定理的核心概念。DMS被比喻为独立抽签的机器,每次输出互不影响。等长编码定理揭示了数据压缩的极限:当压缩率小于信源熵H时必然出错;当压缩率大于H且数据足够长时,可实现近乎无损压缩。文中用班级通知的案例说明合理压缩的重要性,并指出熵H是数据无损压缩的理论红线。最后通过框图直观展示了压缩率与信源熵的三种关系结果。
2026-02-15 22:32:50
198
原创 信息论与编码篇---典型序列
典型序列是指在长序列中符号出现频率接近其真实概率的序列。例如,红球概率80%时,1000次抽取中出现约800次红球的序列就是典型序列,而全红或红蓝各半的序列则属于非典型序列。典型序列具有三个特征:符合概率分布、数量庞大但占比小、各序列概率近似相等。其重要性在于为数据压缩提供理论基础——只需对典型序列编码即可实现高效压缩,这正是香农第一定理的核心思想。典型序列虽然只占所有可能序列的极小部分,却几乎包含了所有实际会出现的序列。
2026-02-15 22:31:38
573
原创 信息论与编码篇---等长编码
等长编码指为每个信息分配固定长度的唯一代码(如01、02)。唯一可译性要求代码序列只能被一种方式解码,无歧义。核心条件是编码必须为单射(每个信息对应唯一代码)。等长编码本身不自动保证唯一可译,需满足代码互不重复。解码时按固定长度切割,若代码唯一则能准确还原;否则因冲突导致歧义。理想情况下,等长编码结合唯一代码可实现无歧义解码。
2026-02-15 22:05:23
587
原创 信息论与编码篇---香农公式
香农公式揭示了通信系统的理论极限:C=Blog₂(1+S/N),其中C为信道容量(bit/s),B为带宽(Hz),S/N为信噪比。该公式表明:1)带宽决定并行传输能力,信噪比决定传输精度;2)容量随信噪比对数增长;3)无限带宽时容量上限为1.44S/N₀。公式可应用于无线通信设计、频谱规划等,其核心启示包括通信资源互换性(带宽与功率可权衡)、数字化发展方向(需先进编码技术逼近极限)等。香农公式如同通信界的光速,为各类通信系统(无线、光纤、深空等)确立了基本性能边界。
2026-02-14 21:53:10
247
原创 信息论与编码篇---DMS信源编码
DMS信源编码是一种针对离散无记忆信源的数据压缩技术。其核心思想是通过变长编码,为高频符号分配短码、低频符号分配长码,从而减少数据冗余。该方法的理论极限由香农熵决定,最优编码方案是霍夫曼编码。实际应用中,如莫尔斯电码、文件压缩等都运用了这一原理,通过合理分配码长实现高效压缩,但压缩率始终受限于熵值。
2026-02-14 21:51:53
537
原创 信息论与编码篇---信源编码
本文系统介绍了信源编码的主要类型与方法。重点分析了7种典型编码技术:霍夫曼编码(变长最优)、算术编码(高压缩率)、游程编码(简单高效)、LZ系列(字典式)、变换编码(频域处理)、预测编码(差值编码)和矢量量化(码本索引)。通过对比表展示了各类方法的压缩比、复杂度等特性,并指出实际应用(如JPEG、ZIP)通常采用多方法组合。文章强调应根据场景需求选择编码策略,在无失真/限失真、复杂度/压缩率之间取得平衡,用行李打包的比喻形象说明了不同编码技术的适用场景。
2026-02-14 21:50:11
775
原创 信息论与编码篇---矢量量化
矢量量化(VQ)是一种高效的数据压缩方法,它将一组数据作为整体处理,用预定义的模板代替原始数据。其核心在于:1)将数据分块为矢量;2)在码本中寻找最接近的模板;3)仅存储模板索引。相比标量量化,VQ能实现更高压缩率,但编码复杂度更高。LBG算法是构建码本的常用方法,通过迭代优化获得最优模板集。VQ广泛应用于语音编码、图像压缩等领域,其优势在于解码简单快速,但需要预先训练和存储码本。
2026-02-14 21:48:11
511
原创 信息论与编码篇---预测编码
预测编码是一种高效的数据压缩方法,通过仅传输预测值与实际值的差值来减少数据量。其核心思想是利用数据相关性,对差值(通常比原始值小)进行编码。主要类型包括前值预测、线性预测和自适应预测,应用于语音(如ADPCM)、图像(如JPEG-LS)和视频编码。优点是压缩率高、实现简单,缺点是存在误差传播和对突变敏感。该技术广泛应用于电话语音、视频通话等场景,通过只传偏差的智慧显著提升压缩效率。
2026-02-14 21:46:16
589
原创 信息论与编码篇---变换编码
变换编码是一种通过信号空间转换实现数据压缩的技术,其核心原理是将原始信号转换到频域(如DCT、DWT),使能量集中在少量系数上,再通过量化去除人眼/耳不敏感的高频信息。典型流程包括分块、变换、量化和熵编码,广泛应用于JPEG(DCT)、MP3等场景。该方法优势在于高压缩比和符合人类感知特性,但会引入量化失真和块效应。关键技术包括Zig-zag扫描、自适应量化和率失真优化,通过能量集中+选择性舍弃实现高效压缩。
2026-02-14 21:44:04
868
原创 信息论与编码篇---LZ系列编码
LZ系列编码是以色列科学家伦佩尔和齐夫提出的经典数据压缩算法,核心思想是利用重复字符串的引用代替重复存储。主要包括LZ77(滑动窗口法)和LZ78(字典构建法)两大流派,衍生出LZW、LZSS、LZMA等改进算法。LZ77通过查找历史数据中的重复模式进行压缩,LZ78则动态构建字典引用重复字符串。这些算法广泛应用于ZIP、GIF、PNG等格式,具有自适应性强、通用性好等优点,但也存在压缩速度慢、内存占用高等缺点。从1977年发展至今,LZ系列已成为数据压缩领域的重要基础技术。
2026-02-14 21:41:50
484
原创 信息论与编码篇---游程编码
游程编码(RLE)是一种通过重复次数+数据形式压缩连续重复数据的简单方法。它将AAAAA表示为5A,适用于黑白图像、传真文档等重复数据场景。RLE具有算法简单、处理速度快、无失真等优点,但对非重复数据可能适得其反。其压缩效果取决于数据重复程度,重复率越高压缩比越好。虽然存在局限性,但RLE在特定领域仍被广泛应用,并常与其他压缩算法配合使用。这种简单有效的压缩方式生动体现了特定场景下简单算法的实用价值。
2026-02-14 21:39:49
580
原创 信息论与编码篇---霍夫曼编码
霍夫曼编码是一种基于字符频率的最优无损压缩算法。其核心思想是高频字符分配短码,低频字符分配长码,构建前缀码确保解码唯一性。通过统计字符频率、构建霍夫曼树和分配编码三个步骤实现压缩,平均码长最短。该算法广泛应用于ZIP、JPEG等压缩格式,具有实现简单、解码快的优点,但需两次扫描数据并保存码表。典型应用场景中,霍夫曼编码能实现60%以上的压缩率,体现了高频短码、低频长码的核心理念。
2026-02-14 21:37:07
770
原创 信息论与编码篇---算术编码
算术编码是一种高效的数据压缩方法,将整个消息映射到[0,1)区间的一个小数。相比霍夫曼编码必须使用整数比特,算术编码通过不断缩小区间实现非整数比特编码,能无限接近理论压缩极限。其核心是动态划分概率区间:初始为[0,1),根据字符概率逐步缩小范围,最终输出区间内任一数(如0.82的二进制1101001)。虽然计算复杂度高且对错误敏感,但算术编码在JPEG2000、H.264等场景中能提升15-30%压缩率,特别适合追求极致压缩的应用。
2026-02-14 21:18:32
990
原创 信息论与编码篇---注水定理
注水定理是通信中优化多信道功率分配的核心原理,其核心思想是“好信道多给功率,差信道少给或不给”。类比往不平水池注水,功率像水一样流向信噪比高的子信道(低噪声),直到所有使用信道达到相同“水位”。数学上,功率分配满足,其中为水位常数,(N_i) 为子信道噪声。例如,总功率10分配时,噪声为1、2、4、8的信道分别获得4.5、3.5、1.5和0。该定理应用于OFDM、MIMO等系统,显著提升总容量,是“把钱花在刀刃上”的最优策略。
2026-02-13 23:49:03
819
原创 信息论与编码篇---平均功率受限的高斯白噪声信道
平均功率受限的AWGN信道是现实通信系统的核心模型,它规定了信号的平均功率不得超过限定值P,以避免设备过载、干扰和过度耗电。在此约束下,信道容量仍遵循香农公式C=Blog₂(1+P/N),但需采用高斯分布信号以实现最大信息传输效率。与无功率限制的理想模型相比,该模型更贴近实际,强调功率预算管理(提升P或降低N可提高容量,但带宽B的线性增益更显著),并区分平均功率与峰值功率的限制差异。最终,高斯信号在功率约束下的最优性,类比于限重箱子的最优装载策略,揭示了实际通信系统的物理极限。
2026-02-13 23:44:08
903
原创 信息论与编码篇---可加高斯白噪声信道
本文介绍了通信工程中最基础的AWGN(可加高斯白噪声)信道模型。该模型模拟真实场景(如电话通话)中信号传输时叠加高斯分布噪声的过程,其容量由香农公式C=Blog₂(1+S/N)决定,其中B为带宽,S/N为信噪比。文章通过电话通信实例(3000Hz带宽、30dB信噪比≈30kbps容量)说明信道物理极限,并揭示三大核心启示:带宽与信噪比可互换、容量存在不可突破的上限、零信噪比时通信失效。最后对比六种信道特性,强调AWGN是最贴近现实的通信模型,其性能受限于基本物理定律。
2026-02-13 23:39:26
949
原创 信息论与编码篇---级联信道
级联信道是一种串联通信结构,信息像接力赛一样依次通过多个信道传递。其容量取决于串联方式:最佳情况下(中间节点完美解码重传),总容量由最慢信道决定(min(C1,C2));若中间节点仅转发信号,噪声会累积导致容量更低;特殊情况下,无噪声信道串联可保持无限容量。相比并联的积信道,级联信道更受限于系统的最薄弱环节,如同水管系统的流量由最细段决定。这种结构生动体现了通信系统中短板效应的重要性。
2026-02-13 23:25:54
911
原创 信息论编码篇---和信道
和信道是指每次只能选择多个信道中的一个进行信息传输的系统(如敲墙或闪光)。其容量公式为C=log₂(2^C₁+2^C₂),反映状态数相加后的信息量,而非简单取最大值或相加。例如,敲墙信道(4种状态)与闪光信道(2种状态)组合时,总容量为log₂(6)≈2.58比特/次。和信道介于最大值与容量和之间,体现灵活选择的价值,类比于看菜吃饭。与积信道(同时使用)和N次拓展信道(重复使用)不同,和信道通过动态选择提升传输效率。
2026-02-13 23:23:38
630
原创 信息论与编码篇---积信道
积信道是将多个独立信道并联使用的通信方式,其总容量等于各信道容量之和。比如同时使用敲墙(C1)和闪光(C2)两种信道,总容量为C1+C2。与时间上的信道拓展不同,积信道是空间上的并行传输。关键前提是各信道必须相互独立且能同时使用。这种组合方式显著提升了信息传输速率,为多信道协同通信提供了理论基础。
2026-02-13 22:31:38
544
原创 信息论与编码篇---N次拓展信道
N次拓展信道是指将单次信道独立重复使用N次,其总容量CN为单次容量C的N倍(CN=N×C)。这类似于连续工作N天,总收入是日薪的N倍。关键前提是信道必须无记忆,即每次使用互不影响。若信道存在记忆效应(如第一次使用影响后续传输),则容量不能简单线性叠加。该理论为通过多次传输提升信息总量提供了基础,如3次传输可将容量从1.28比特增至3.84比特。
2026-02-13 22:28:40
469
原创 信息论与编码篇---可逆矩阵信道
本文介绍了可逆矩阵信道这一高级通信模型。该信道通过可逆矩阵A对输入向量x进行确定性线性变换y=A·x,由于变换可逆且无噪声,接收端能完美恢复原始信息。与存在噪声干扰的普通信道不同,可逆矩阵信道具有无限容量:1)信息论角度,无噪声意味着传输速率无上限;2)类比完美翻译官,信息可无损传递;3)几何上,变换是一一对应的刚体运动。文章通过对比普通信道(有限容量)与可逆矩阵信道(无限容量),突出了后者作为确定性无噪声信道的特性。
2026-02-13 22:25:44
680
原创 信息论与编码篇---对称信道
对称信道是一种干扰公平、有规律的信道,其特点是错误概率和接收混淆对所有符号一视同仁。例如,在4符号对称信道中,发送任意符号出错的概率均等(如20%),且错误均匀分散到其他符号。其信道容量公式为 ,直观表示“理论信息量减去干扰损失”。以4符号(2比特)信道为例,若错误概率20%,容量为1.28比特/次。对称信道的优势在于计算简单(输入等概率即可达到容量)且物理意义清晰。
2026-02-13 22:19:55
720
原创 信息论与编码---离散无记忆信道的容量
本文通过猜谜游戏类比解释离散无记忆信道模型:发送方(出题者)通过受干扰的信道(敲墙)向接收方传递离散信息(数字1-4)。信道特性包括离散(有限符号)、无记忆(独立传输)和有干扰(传递可能出错)。信道容量指信道可靠传输的最大速率,如完美信道为2比特/次,有干扰时可能降至1比特/次。该理论值由信道物理性质决定,是通信工程师设计编码方案的上限参考。框图展示了从发送方到接收方的三段式通信流程及其核心特征。
2026-02-13 22:13:41
793
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅