- 博客(111)
- 资源 (2)
- 收藏
- 关注
原创 操作系统漫谈
操作系统必须完美地保存所有数据:寄存器、堆栈指针、程序计数器,以至于当它恢复运行时,进程根本不知道自己曾经被中断过。这种连续性的假象是通过精细的记事本来维持的。它不是应用程序,也不是任务,而是让其他一切成为可能的基础。当一个进程跨越边界,请求它自身无法完成的任务时,就会发生这种情况。如此小巧的机制,仅仅一个计数器和两个原子操作,却能解决彼此无法直接交互的进程之间的协调问题。硬件一旦触碰到操作系统,一切就都冻结了,状态被保存,整个世界仿佛暂停了。仔细观察,你会发现操作系统和硬件之间的边界确实很奇怪。
2026-03-29 10:24:40
19
原创 拓扑学:曲面与圆环
在赤道附近,圆的形状完美无瑕,一切都流畅,一切都排列整齐。圆在表面上的位置,它们如何收缩以及在哪里卡住,当你试图将它们收缩成一个点时会发生什么,这实际上是基本群fundamental group的起源。球面上任何连续的向量场都至少存在一个向量为零的点,箭头完全消失的点。孔洞并非可见的属性,而是缺失。然而,环路却能感知到它们,围绕着它们盘旋,被它们捕获。它们的本能相同,关注的是连接,而不是距离。双孔形状,双环面的环路会卡在每个孔里,也会在孔间穿梭,以及这些环路的各种组合。穿过圆孔的环,拉紧它,它会卡住。
2026-03-29 10:16:07
360
原创 拓扑学:毛球定理
球体上没有孔洞,因此其表面上的任何连续向量场都必须至少有一个点使向量消失,就像发旋、旋涡,或者梳子卡住的地方。你想把所有毛发都梳平,没有一根毛发直立,每根毛发都平贴在球面上,指向某个连续的方向,方向没有突然改变。在这个定理中,“毛发”指的是精确的概念,数学向量,而不是有体积和柔软度的物理纤维。这个定理存在于纯粹的几何学中,一个无摩擦的理想化表面,每个点都恰好对应一个无限细、完美相切的箭头。大气层是球体,风是向量场。此刻,在这个星球的某个地方,在一片不知名的空气中,绝对的平静并非偶然,而是拓扑学的必然结果。
2026-03-27 10:36:46
386
原创 聊聊拓扑学
在拓扑学中,重要的不是精确的位置,而是连通性:哪些事物与其他事物连续,哪些事物可以变形而不撕裂。而在量子力学中,有趣的真相往往是非局域的,它不位于任何单一点,而是以某种方式分布在整个系统中。或许是因为它是关于形状的数学,它能在变换中保持不变。不是刚性结构,也不是代数的精确性,而是当事物拉伸、弯曲和变化时,那些保持不变的东西。大小不同,形状也不完全相同,但在某种更深层次的意义上是相同的。这是拓扑学的第一个思想,尽管他当时并没有这样称呼它。球体,就像一个球,它没有孔。它研究的是能够通过变换而保持不变的结构。
2026-03-27 10:27:28
268
原创 薛定谔方程
是一个完全真实的东西,它支配着一切,它的演化是确定性的,但它与观测之间存在着一定的距离。你只能看到它在测量时坍缩成的模样。它是量子系统状态的完整描述。它不仅描述了粒子所在位置,还描述了粒子所有可能出现的位置,以及它们出现的概率。使它变得复杂,字面意义上的复杂,数学上的复杂。右侧会告诉你它为什么会发生变化,它所处的能量环境。系统会发生变化,因为它所处的位置、周围的环境以及它所嵌入的体系都会影响它。对某种永远无法直接观察到的事物的完整描述。,即波函数幅值的平方。是哈密顿算符,系统的总能量,动能加势能。
2026-03-26 20:16:23
146
原创 吸引子attractor
雨水落在山脊的一侧会流向一个山谷(盆地),而落在山脊另一侧则会流向另一个山谷。山脊本身是不稳定的,山脊上的水滴可能会流向任何方向。当我说你是我概率景观中的一个吸引盆地时,我指的是一种比喻,但又很贴切。例如具有循环或混沌的系统,它们不能完全用梯度下降法来描述,因为它们的能量函数并非单调递减。旋度衡量的是向量场是否“旋转”,如果旋转,它就不可能来自势函数。,或者更一般地,雅可比矩阵必须是对称的。这就是我提到的“对称性”条件,它意味着雅可比矩阵是对称的。,不稳定的平衡点,微小的扰动都会导致系统流向不同的吸引子。
2026-03-12 21:20:29
231
原创 线性代数直觉(六):向量通过矩阵
因此,一个特征向量可能拉伸 5 倍,另一个可能拉伸 2 倍,甚至可能压缩(特征值小于 1)。它们与变换的“自然轴”对齐,所以只会沿着自身方向拉伸,不会受到其他方向的影响。关键在于,当你了解一个矩阵的所有特征向量和特征值时,你就完全理解了这个矩阵的作用。你可以将其完全分解。这些特征向量共同构成了一个完整的坐标系,一种看待空间的新方式,其中变换仅沿每个轴作用。因此,特征向量揭示了矩阵的“真实本质”,它的骨架,它剥离了坐标系痕迹后的基本结构。大多数矩阵都有多个特征向量,通常特征向量的数量与空间的维度相同。
2026-03-12 21:15:13
329
原创 拉普拉斯算子与扩散方程
热量在所有方向上的流动是均匀的,仅取决于与相邻区域的平均差异。Hessian 矩阵告诉你“这个函数在东北方向陡然上升,而在西北方向向下弯曲”。它源于物理原理,如:能量守恒、傅里叶热传导定律,但同时也符合经验,实际的热扩散遵循这个方程。所以,即使函数在一个方向上是凹的,只要它在另一个方向上足够凸,我会解释:“那是拉普拉斯算子,它衡量的是熵在空间上的扩散程度。它衡量的是:“平均而言,这个点比它的邻近点更热还是更冷?中,它表示:“温度的变化取决于你与邻居的温度差异。表示:温度随时间的变化率等于其在空间中的曲率。
2026-02-09 20:15:55
991
原创 量子力学-测量
这里的“不确定性”并非指人类的担忧或实际的顾虑,而是数学上的不确定性。如果你制备相同的粒子,精确测量它们的位置,然后再测量动量,你也会得到一系列不同的动量值。它具有位置概率分布,一个波函数,它告诉你如果测量位置,粒子出现在不同位置的概率。测量是坍缩collapse的瞬间,当量子系统与宏观物体,例如探测器或观察者相互作用时,它突然必须从所有可能性中选择一个特定的状态。没错,量子测量可能具有“破坏性”,测量位置可能会消除动量的不确定性,所以你无法回溯测量之前的动量“是什么”但其潜在的现实是确定的。
2026-02-08 18:13:31
251
原创 测度论Measure theory
这里有一个经典的例子:在高维空间中,球体的几乎所有体积都集中在其表面附近,内部几乎是空的!因此,当我们讨论高维空间,例如,词向量所在的空间中的概率分布时,我们实际上是在运用测度论。它将长度/面积/体积推广为一种叫做“测度”的东西,一个告诉你一个集合占据了多少空间的函数。这似乎显而易见,如果明天有 30% 的概率下雨,20% 的概率下雪,而且它们不可能同时发生,那么降水的概率就是 50%。在普通空间中,测量很容易。所以,其基本原理是:概率之所以能够相加,是因为它们测量的是空间,而空间中不重叠的区域自然相加。
2026-02-08 14:04:31
446
原创 softmax函数与logits
当你想在给定某些约束条件,例如期望值,的情况下获得“最大程度的不确定性”的概率分布时,最终会得到指数族分布。网络通过多层变换,矩阵乘法、非线性运算,处理了所有输入,最终的这些数值代表了基于所有这些处理结果的“网络对每个选项的信任程度”。它们存在于一个不受约束的空间,可以是负数,大于 1,等等。妙处在于,弱证据,较小的 logit 值,会被指数函数温和处理,选项保持相对的竞争力。不仅仅取决于自身的强度,它被所有选项的强度进行了归一化。它衡量的是证据,是支持该选择的信息量。的事件的“意外”或信息量。
2026-01-27 20:10:27
416
原创 诺特定理:世界是二阶导的吗
它并非个例适用,它是一个通用的公式,以对称变换为输入,输出守恒量。这就是为什么微积分是对称性的语言,对称性描述的是在无穷小变化下保持不变的性质。诺特定理并非说“如果你把这些东西减去,你会找到一个恰好守恒的东西”。来研究的,你不需要考虑大的改变,只需要考虑微小的改变。物理学研究的就是这类系统,它们被称为“参数驱动”或“时变”系统。的变化随时间变化——这些是隐式的时间依赖性。我即兴编造了这个例子来说明这一点,但它在物理上也是合理的。具有显式的时间依赖性,因此没有时间对称性,能量也不守恒。
2026-01-18 21:02:36
624
原创 欧拉-拉格朗日方程:水往低处流
同样的数学原理,只是不同的拉格朗日量。这就是它的力量和美妙之处,抽象让我们看到看似不同的现象之间的联系,揭示出潜在的统一性。它适用于:“力”的概念并不恰当的系统,例如场、相对论;我们从摆锤和弹簧开始,这些我们能看到、摸到的东西。数学的设定使得作用量的优化自然而然地产生包含加速度的方程,而不仅仅是速度。这就是反直觉的地方,这个方程表明加速度(二阶导数)直接与拉格朗日量随位置的变化有关,而不是与速度有关。而是牛顿基于力的理论是更一般的拉格朗日框架的一个特例。欧拉-拉格朗日方程是这种优化的数学结果:。
2026-01-03 11:50:52
391
原创 拉格朗日量:简单系统
是一个函数,它包含了系统的所有物理特性。“简单”在某种程度上是为了教学方便,这是我们学习的起点。我们并不完全清楚,这是个深奥的谜题。我们已经发现宇宙就是这样运行的,但最终的“为什么”仍然是哲学层面的。这里的“简单系统”实际上指的是“非相对论经典力学,包含保守力”。描述了系统在每个时刻的“状态”。时,意思是动能取决于速度,即运动的快慢,而不仅仅是位置。但是,为什么自然界遵循最小作用量定律?这个点只是“时间导数”的简写,它使公式更简洁。真相是:这是经验观察和数学的巧妙结合。系统运动速度快,分数高。
2026-01-02 18:25:25
838
原创 诺特定理:对称与守恒
有一个定理,诺特定理Noether’s theorem,它指出物理学中的每一种对称性(symmetry)都对应着一条守恒定律(conservation law)。如果你知道你的系统具有时间平移对称性,比如:今天的物理规律与明天的物理规律相同,诺特定理就能告诉你如何提取守恒量,瞧,那就是能量。但我最喜欢的是:它意味着宇宙最深层的规律,那些不变的事物,直接源于其对称性。所以,“对称性”并非系统与守恒量之间的关系,对称性是系统的一种属性,在某种变换下的不变性,而这种属性蕴含了某个守恒量的存在。
2026-01-02 10:47:56
502
原创 傅里叶变换(五):三角函数与单位圆
这意味着正弦波是任何可以用微分方程描述的系统的天然组成单元,而这基本上涵盖了物理学的全部。它们都自然而然地用正弦波来“表达”,因为这些函数在重要的运算下表现得最为简单。它们并非“恰好也适用于圆的三角形比值”,它们的本质是旋转和振荡。那些基础变换、加法公式,所有你在学校学过的那些东西,都只是辅助工具。所以,是的,“它就是这样”,但这是一个意义深远的“就是这样”。它们以不同的速度旋转。这正是我们使用积分的原因,在无限长的时间内累积。这揭示了一个深刻的真理:正弦和余弦分别是绕单位圆旋转的点的!
2025-12-29 18:48:02
539
原创 傅里叶变换(四):直角坐标与极坐标
这本质上是同心圆”,没错!到原点距离相等的每个点都位于一个圆上。振幅告诉你哪个圆,相位告诉你圆上的位置。是实值函数(对于物理信号来说通常是实值函数),那么。的函数,可以告诉你信号的完整“频率特征”。,它告诉我们“信号中包含了多少这个频率”。)以外,其余处均为零。它们指向同一个点,只是描述方式不同。,表示该频率分量的时序或偏移。,表示该频率在信号中的强度。方向移动(相位,角度)(振幅,频率的强度)
2025-12-29 18:42:24
447
原创 傅里叶变换(三)调制与载波
有一个以特定频率(比如 101.5 FM)振荡的基础信号,然后通过调制,改变它的振幅或频率,来编码音乐或语音。不过,就我们讨论傅里叶变换而言,你其实不必纠结于“载波”这个技术术语。调制(modified)是指一个信号控制或改变另一个信号。想象一下你有一个载波(carrier wave),规律稳定的振荡,然后你根据另一个信号改变它的特性。变化,变大或变小,那么正弦波的振幅也会相应地增大或减小。关键在于:“调制”的意思就是“乘以”或“通过某种方式整形”因此,投影到实轴上:得到。),则只会得到纯正弦波。
2025-12-27 20:53:24
402
原创 傅里叶变换(二):旋转楼梯
它将所有螺旋运动压缩到一个点上,告诉你“这个信号在频率。所以我们并非在复平面上进行积分,而是在实数轴上进行积分,但被积函数本身在复空间中呈螺旋状运动。关于“复平面上的那个积分”,它算是,也不算。振荡,它将与旋转箭头“同步”,并且贡献会相长叠加。是复平面上的一个旋转箭头。我们在每个时刻将它们相乘,然后将所有复值乘积相加。是常数,你实际上是在描绘一条螺旋线,一个半径恒定的螺旋楼梯。变化,那么随着你向上攀爬,螺旋线的半径也会变化。这个复指数在复平面上描绘出一个圆,它以频率。是一个随时间变化的波,而。
2025-12-27 18:50:27
329
原创 傅里叶变换(一):简介
你的耳朵听到的是一个混合的声音,但你的大脑却知道其中包含多个音符。傅里叶变换本质上就是用数学方法实现这一点,将一个复杂的信号分解成“它实际上是由这些纯频率组合而成的”。这样做的原理是:如果你的信号 f(t) 包含一个频率为 ω 的振荡分量,那么该分量会与 e^{-iωt} 发生“共振”,并在积分过程中保留下来。复平面不仅仅是数学上的优雅,它也是理解振荡的理想空间。其中 f(t) 是你的原始信号,比如随时间变化的声波,F(ω) 是变换后的结果。这绝对是欧拉公式的延伸,也体现了复平面在现实世界中的重要意义。
2025-12-25 22:58:04
1172
1
原创 信息论(13):渐进均分性AEP与典型集
而且,对于较大的 n 值,正好 n/2 个正面朝上的概率非常小。但是,如果我们允许一个较小的容差 ε,那么对于较大的 n 值,属于这个更宽泛集合的总概率几乎为 1。如果你观察足够长的时间,就会发生神奇的事情:这条河流开始呈现出某些典型的模式,并非所有序列出现的概率都相同,但几乎所有的概率都汇聚到一个集合中,在这个集合中,每个序列的信息含量都惊人地相似。因此,当 n 增大时,典型序列的数量大约为 $ 2^{nH} $,并且它们几乎等概率。因此,在典型的集合中:每个序列的概率为 2^{-n}。
2025-12-18 11:03:05
448
原创 信息论(12):Jensen不等式
它告诉我们,随机性(方差)只会增加描述长度,而不会减少它,因为 $ f(x) = \log(1/x) $ 在概率上是凸函数,所以$ D_{\text{KL}} \geq 0$。我们有点 $ x_1, x_2, ..., x_n $ 和权重 $ \lambda_1, \dots, \lambda_n $ ,满足 $ \sum_{i=1}^n \lambda_i = 1 $,且每个 $ \lambda_i \geq 0 $。归纳技巧是,我们将前 n 个点视为一个混合点,将第 (n+1) 个点视为第二个混合点。
2025-12-08 20:21:43
887
原创 概率论直觉(三):边缘化
泛函分析,类似“投影算子”。想象一个二维的联合概率表(X 行,Y 列),求 P(X) 就是把每一行的所有列加起来,写在表格的边缘,这正是“边缘分布”名称的来源。所以,“边缘化”这个词确实带着强烈的概率论基因,它不仅描述了数学操作,如求和/积分,还隐含了结果是一个合法的概率分布这层含义。就是我们要的右边部分,这个推导的关键是把依赖于多个变量的函数的联合概率求和,通过边缘化简化成只依赖于部分变量的求和。边缘化的直观理解:当有联合分布 P(X,Y) 时,有时我们只关心 X 的概率规律,而不管 Y 的具体值。
2025-12-04 20:42:48
920
原创 信息论(11):链式法则-证明
你得到的是它在 x_1 轴上的投影,这就是 P(x_1)。我们有联合概率表 P(x_1, x_2):x_1 x_2 P(x_1, x_2),正面 正面 0.25,正面 反面 0.25,反面 正面 0.25,反面 反面 0.25。先来看一个具体的例子,为了简化起见,我们取 n = 2:X_1 = 一枚均匀硬币的结果(正面或反面),X_2 = 另一枚均匀硬币的结果(正面或反面)。首先,注意到 P(x_1) 与 x_2 无关:P(正面) = 0.5, P(反面) = 0.5。,该项仅取决于 x_1, …
2025-12-02 22:22:35
621
原创 信息论(十):链式法则-加长版
H(X_3|X_1,X_2):已知面包和涂抹酱后,对馅料的不确定性。揭示依赖关系:如果 H(X_3|X_1,X_2) 远小于 H(X_3),这意味着 X_1 和 X_2 可以告诉你很多关于 X_3 的信息。当 n=2 时,概率:P(X,Y) = P(X) · P(Y|X),熵:H(X,Y) = H(X) + H(Y|X)。如果 X 和 Y 独立:P(X,Y) = P(X)P(Y),H(X,Y) = H(X) + H(Y)。H(X_3|X_1,X_2):已知前两个选项后,对第三个选项的不确定性……
2025-11-30 22:21:21
804
原创 数学的大厦(八):同态与同构
现在,检查它是否是“结构翻译官”:翻译“加法”:f(3 + 4) = f(7) = 1,“先翻译再相加”:f(3) + f(4) = 1 + 0 = 1,结果相同!翻译“乘法”:f(3 * 4) = f(12) = 0,“先翻译再相乘”:f(3) * f(4) = 1 * 0 = 0,结果也相同!定义乘法:a*a=a, a*b=a, b*a=a, b*b=b。加和乘的计算不改变,数学上叫保持运算:f(a+b) = f(a) + f(b) 且 f(a*b) = f(a) * f(b)。
2025-11-28 22:57:51
414
原创 数学的大厦(七):群、环、域
它比整数环“好”一点,因为它有除法,带余除法,但它也不是域,因为多项式的乘法逆元,比如 1/(x+1),不再是多项式。整数 (ℤ)、实数系数多项式 (ℝ[x])、以及 n×n 的实数矩阵 (M_n(ℝ)),它们都是“环”这个抽象蓝图的具体实现。3. 单位元:存在一个特殊的“零”元素,比如加法里的0,乘法里的1,使得任何元素与它合成都等于自己。环,能加能乘的天地。它的核心思想是,我们只关心一个集合,以及集合上的一种合成方式,比如加法或乘法,它需要满足几条非常优雅的公理。域,域是环的升级版,是运算的天堂。
2025-11-28 19:36:21
416
原创 信息论(九):互信息的两个视角
一个直观的桥梁,如果 X 和 Y 相互独立,那么:知道 Y 并不能告诉你关于 X 的任何信息, H(X|Y) = H(X) ,I(X;如果 Y=H,则 P(X=H|Y=H) = 0.45/0.5 = 0.9,熵 ≈ 0.47 比特。X:第一枚硬币,正面/反面,P(X=H) = 0.5。世界 2(独立):现在想象一个 X 和 Y 完全无关的世界,天空和雨伞之间没有任何联系,这就是 P(X)P(Y)。同样,对于所有四种结果:(H,H), (H,T), (T,H), (T,T),每种结果的概率均为 0.25。
2025-11-26 19:43:08
917
原创 数学的大厦(六):有理数、无理数、实数
柯西告诉我们,我们这些有限的生物,只能通过一个无限的、渐进的、动态的过程去无限地接近它。看,我们没有直接说 √2 是什么,我们只是精确地描述了它在有理数系中所处的位置,它是一切“不够大”和“太大”之间的那个精确的、唯一的缝隙。戴德金分割:一个实数,被定义为将有理数集Q分成非空的两部分(A, B)的一种特定方式,其中A中的每一个有理数都小于B中的每一个有理数,并且A中没有最大的元素。它告诉我们,尽管终极真理(实数)可能无法被最终触及,但通过不懈的计算序列的每一项,我们可以获得关于它的任意精度的知识。
2025-11-24 19:24:19
631
原创 数学的大厦(五):除法、有理数、等价关系
有理数 1/2 就是 { (1,2), (2,4), (3,6), (-1,-2), ... } 这个巨大的集合。有理数 2/3 就是 { (2,3), (4,6), (6,9), (-2,-3), ... } 这个巨大的集合。我们宣布,两个有序对 (a, b) 和 (c, d) 是“等价的”,当且仅当 a * d = b * c。这对于任意整数 a, b 绝不成立(比如 (1,2):1+2=3, 1*2=2, 3≠2)。关系一:(a,b) ~ (c,d) 当且仅当 a + b + c = d。
2025-11-22 18:51:19
466
原创 信息论(八):吉布斯不等式的证明
它是连接以下两者的桥梁:关于对数的普遍真理 (ln t ≤ t - 1),关于信念与现实的具体问题 (P vs Q),这就像找到一把合适的钥匙,打开一把你已经感觉到里面藏着珍贵之物的锁。ln t ≤ t - 1 的含义,如果你预期某事发生的概率为 t,但用“对数惊喜”单位来衡量,那么在对数空间中,你感受到的惊喜总是比直接测量原始差异时要少,除非你的预期完全正确。首先,直觉上,我们注意到,当模型 Q 完美时(Q = P),“意外”感微乎其微,一切都吻合。等号成立当且仅当对于所有 x,P(x) = Q(x)。
2025-11-21 21:04:51
660
原创 数学的大厦(四):减法与整数
整数 +2 就是 { (2,0), (3,1), (4,2), (5,3), ... } 这个巨大的集合。整数 -2 就是 { (0,2), (1,3), (2,4), (3,5), ... } 这个巨大的集合。我们宣布:两个有序对 (a, b) 和 (c, d) 是“等价的”,当且仅当 a + d = b + c。初步的构想,我们把整数想象成 (自然数a, 自然数b),但这个有序对不代表 a - b 的结果,因为结果可能还不存在,而是代表“a - b”这个概念本身。问题是,表示法不唯一!
2025-11-19 20:07:56
491
原创 信息论(七):对数似然比与相对熵(KL散度)
则,$ \frac{P(x)}{Q(x)} = 1, \log \frac{P(x)}{Q(x)} = 0 $。如果 P(x) = 0.2 但 Q(x) = 0.05,则:$ \frac{P(x)}{Q(x)} = 4 $,它的含义是,在模型 P 下,结果 x 的概率是模型 Q 下的四倍,这是解谜的第一块拼图。因为它正是如此:“似然比”为 P(x)/Q(x), “对数似然比” 为 \log(P(x)/Q(x)),“期望” 为 P 下的平均值,“对数期望似然比” 为 E_P[\log(P/Q)]。
2025-11-18 19:10:44
886
原创 信息论(六):链式法则
然后,在已知 X 的情况下,你了解 Y 的值。每一步都有一定的“惊喜成本”:第一步的成本:surprise(X),第二步的成本:surprise(Y | X)。这对结果的总惊喜应该是它们的和:surprise(X,Y) = surprise(X) + surprise(Y|X)。它很简单:(X,Y) 这对数的不确定性 = X 的不确定性 + 在 X 已知的情况下 Y 的剩余不确定性。首先,我们来看链式法则的含义:H(X,Y) = H(X) + H(Y|X) 究竟是什么意思?这就是链式法则的雏形。
2025-11-18 11:17:36
813
原创 信息论(五):联合熵与条件熵
联合概率分布(Joint Probability Distribution):如果单个随机变量 X 的分布为 p(x),那么两个变量 X 和 Y 的联合分布为 p(x,y)。条件熵(Conditional entropy)是 H(Y|X) = 如果你已经知道 X,那么你对 Y 的剩余不确定性,它是放大地图每一行后 Y 的平均意外值。直觉来说,将 X 和 Y 想象成发生在同一个世界中的两个事件:X = 明天的天气,Y = 你是否带伞。p(y | x) = Pr(Y = y,已知 X = x)
2025-11-15 22:16:24
501
原创 信息论(四):熵与概率分布的期望
熵是描述了编码一个典型结果所需的平均比特数,这就是为什么我们要取 1/p(x) 的对数:如果一个事件发生的概率很低,你需要更多的比特来描述它。大多数情况下,当我们计算期望值 \mathbb{E}[g(X)] 时,函数 g 描述的是 X 的值,高度、能量、成本、误差等等。因此,期望值 H(X) = \mathbb{E}[\log\tfrac{1}{p(X)}] 捕捉的是分布本身的统计特征,而不是 X 的物理意义。“当 g(X) = log(1/p(X))时,X 的熵是 log(1/p(X)) 的期望值。
2025-11-14 21:13:36
746
原创 数学的大厦(三):加法、递归、向前数数
现在,我们可以把这片虚无放进一个盒子里,我们得到:{∅},一个包含空集的集合。不是因为它有一个叫做“ 1 ”的元素,而是因为它本身就是“ 1 ”的结构。所以从某种意义上说,所有算术最终都归结为:零(空集),下一步(后继),重复执行某项操作(递归)。首先,这里什么都没有,纯粹的空无,空集:∅ 或 {}。我们从空集开始,构建“后继”的概念,把所有已计算的元素放入一个新的盒子里,然后加法就变成了:“我要走多少步后继?3 + 2 的意思是:从 3 开始,然后向前走一步(加 1),再向前走一步(再加 1)。
2025-11-13 19:18:50
523
原创 停机问题与考拉兹猜想:循环何时终止
对于我们测试过的每一个数字,循环最终都会到达 1,但没有人证明它总是如此。或者更简单地说,这里,程序是否停止取决于一些无法在不解决另一个开放式或自指问题的情况下计算出来的东西,它可能会永远运行下去,因为它在寻找一个不存在的答案。复杂的数学模式,例如考拉兹定理,这样的循环是未知性,依赖于未经证实的真理。另一个例子,这里,我们知道每个整数最终都会变成一个完全平方数,所以循环会终止,但我们的推理现在涉及到数字的数学性质。现在我们进入循环的讨论,这类循环的终止取决于更深层次的性质,这些性质并非总是可判定的。
2025-11-12 21:15:18
478
原创 数学的大厦(二):关系、函数、等价关系
从我们刚才造好的“关系”里,加上一条约束规则。如果这个袋子里的所有有序对都是 (人A, 人B) ,并且 A 是 B 的母亲,那我们就定义了“母子关系”。看,我们从一个具体的“顺序”,飞跃到了普适的“关系”!“住在同一个城市”这个关系,可以把“所有人”的集合,划分成“北京人”、“上海人”、“广州人”……我们现在的情况,就像刚刚在数学的空地上,用集合的砖石砌好了两个坚固的基石:1. 无序的容器(集合本身)。所以,我们从两块最朴素的基石出发,只用了“收集”和“约束”两种操作,就合成了:关系、函数、等价关系。
2025-11-11 21:00:01
951
原创 柯尔莫哥洛夫复杂度与停机问题
如果 K(x) 很大,则该对象没有更简单的解释,它本身就是随机的,例如:“1011010110…从这个意义上讲,复杂度与随机性相反,或者更确切地说,当描述失效时,随机性就是复杂度的最大值。因此,K_U(x) 是输出 x 且程序终止的最短程序的长度。或者,用诗意的语言来说,它是没有结构的纯粹信息。因为要知道一个程序是否是最短的,你必须解决停机问题,而停机问题是可证明不可判定的。问题是,“你能否编写另一个程序 H(P, x),使其能够正确判断 P 在输入 x 上运行时最终是会停止(结束),还是会永远运行下去?
2025-11-10 21:59:27
598
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅