To live is to change the world:自由能理论与马克思主义哲学

原文: The free-energy principle: a unified brain theory? Karl Friston

To live is to change the world:自由能理论与马克思主义哲学

(马原作业 2023.12.09)

自由能理论

如果你走进中国科大西区科技实验楼西楼(那里是信智学部的地盘),你会看到这样一行字:To live is to change the world,活着就是为了改变世界。如果把意识看作世界的一部分,这句话与马克思主义中对于人与世界关系的认知相一致:人与世界的关系主要包括两个方面,一是认识世界,二是改造世界。
事实上,Karl Friston 从自由能原理出发,通过纯数学方法,得到了相同的结论:任何处于内稳态的智能体都必须将其自由能降至最低,而智能体可以通过改变它所依赖的两件事来抑制自由能:它们可以通过对世界的作用来改变感官输入(即改造世界),或者通过改变内部状态来改变它们的认知密度(即认识世界)。接下来我将介绍自由能原理,并阐述其与马克思主义基本原理中的实践论、认识论、矛盾观实质上相统一。
自由能原理基于一个很简单的事实:在智能体感官能观测到的所有状态中,绝大部分状态存在的概率很小,而很小一部分状态存在的概率很大。举个例子:你大部分时候会看到鱼在水里游而不是鱼在天上游,眼睛观测到“鱼在水里游”的概率远大于观测到"鱼在天上游"的概率。用数学语言描述,设感官观测到的状态为随机变量 S S S, 那么 S S S 的熵 H ( S ) = ∫ − p ( s ) log ⁡ ( p ( s ) ) d s H(S)=\int -p(s)\log(p(s)) ds H(S)=p(s)log(p(s))ds 很小。也就是说,智能体必须长时间保持熵 H ( S ) H(S) H(S) 处于一个较低水平,然而这与热力学中的涨落原理相违背。
H ( S ) H(S) H(S) 变形, H ( S ) = ∫ − p ( s ) log ⁡ ( p ( s ) ) d s = lim ⁡ T → inf ⁡ ∫ 0 T − log ⁡ ( p ( s ( t ) ) ) d t H(S)=\int -p(s)\log(p(s)) ds=\lim_{T\rightarrow \inf}\int_{0}^{T}-\log(p(s(t)))dt H(S)=p(s)log(p(s))ds=limTinf0Tlog(p(s(t)))dt,我们称 − log ⁡ ( p ( s ( t ) ) -\log(p(s(t)) log(p(s(t)) 为surprise。这个式子表明了熵是surprise在长时间上的平均。surprise当然不能翻译为惊喜,所以我姑且直接写原文了,后面我将阐述surprise与矛盾的统一性。
因此,为了保持熵 H ( S ) H(S) H(S) 一直处于一个较低水平,智能体可以使surprise处于一个较低水平。然而这还是不方便我们分析,我们可以令自由能(free energy)为surprise的一个上界,通过最小化自由能即可降低熵。
形式化地,我们令 v v v 表示智能体意识中的隐藏状态,令 q ( v ) q(v) q(v)表示智能体的认知密度,即智能体如何认识世界,我们有自由能 F ( s ( t ) , q ( v ) ) = ∫ q ( v ) log ⁡ q ( v ) p ( v ∣ s ) d v − log ⁡ p ( s ) = D ( q ( v ) ∣ ∣ p ( v ∣ s ) ) − log ⁡ p ( s ) F(s(t),q(v))=\int q(v) \log \frac{q(v)}{p(v|s)}dv-\log p(s)=D(q(v)||p(v|s))-\log p(s) F(s(t),q(v))=q(v)logp(vs)q(v)dvlogp(s)=D(q(v)∣∣p(vs))logp(s),其中 D ( q ( v ) ∣ ∣ p ( v ∣ s ) ) D(q(v)||p(v|s)) D(q(v)∣∣p(vs)) 为交叉熵,非负。可得自由能大于等于surprise.
进一步化简,我们有
F ( s ( t ) , q ( v ) ) = ∫ q ( v ) log ⁡ q ( v ) p ( v ∣ s ) d v − log ⁡ p ( s ) F(s(t),q(v))=\int q(v)\log \frac{q(v)}{p(v|s)}dv-\log p(s) F(s(t),q(v))=q(v)logp(vs)q(v)dvlogp(s)
= ∫ q ( v ) ( log ⁡ q ( v ) p ( v ∣ s ) − log ⁡ p ( s ) ) d v =\int q(v)(\log \frac{q(v)}{p(v|s)}-\log p(s))dv =q(v)(logp(vs)q(v)logp(s))dv
= ∫ q ( v ) log ⁡ q ( v ) p ( v ∣ s ) p ( s ) d v =\int q(v)\log \frac{q(v)}{p(v|s)p(s)}dv =q(v)logp(vs)p(s)q(v)dv
= ∫ q ( v ) log ⁡ q ( v ) p ( s ∣ v ) p ( v ) d v =\int q(v)\log \frac{q(v)}{p(s|v)p(v)}dv =q(v)logp(sv)p(v)q(v)dv
= ∫ q ( v ) log ⁡ q ( v ) p ( v ) d v − ∫ q ( v ) log ⁡ p ( s ∣ v ) d v =\int q(v)\log \frac{q(v)}{p(v)}dv-\int q(v)\log p(s|v)dv =q(v)logp(v)q(v)dvq(v)logp(sv)dv
= D ( q ( v ) ∣ ∣ p ( v ) ) − ∫ q ( v ) log ⁡ p ( s ∣ v ) d v =D(q(v)||p(v))-\int q(v)\log p(s|v)dv =D(q(v)∣∣p(v))q(v)logp(sv)dv

其中第一项为 p p p q q q 的交叉熵,表征了智能体的认知有多接近真实世界;第二项为在认知密度下的surprise,被称为精确度。
总而言之,智能体减小自由能的方法只有两种,一是调整认知密度使其符合真实世界,即减小第一项;二是输出反馈影响世界使其符合认知密度,即增大第二项.

自由能理论与马克思主义哲学中的实践观和认识观

马克思指出,人与世界的关系主要包括两个方面,一是认识世界,而是改造世界。这与我们刚才得到的结论是一致的。此外,我们的结论不仅适用于人类,也适用于没有那么智能的生命体和非生命体、甚至是任何处于自稳态的抽象或具象的系统,比如人工智能或是整个人类群体。在这个意义上,自由能理论是马克思主义的进一步拓展。
毛泽东指出:“马克思主义的哲学认为十分重要的问题,不在于懂得了客观世界的规律性,因而能够解释世界,而在于拿了这种对于客观规律的认识去能动地改造世界。”在认识对实践的作用方面,自由能理论比马克思主义哲学更进一步,指出智能体能动地改造世界的目标就是智能体本身的认知密度。

自由能理论与马克思主义哲学中的矛盾论

马克思主义哲学指出,矛盾是反映事物内部和事物之间对立统一关系的哲学范畴。回过头来看所谓surprise,其正是智能体的认知与真实世界的矛盾。智能体的认知与真实世界相互依存,相互转化:认知分布会逐渐靠近真实世界,智能体会改造真实世界使其靠近认知分布,最终趋同;智能体的认知与真实世界相互排斥,相互分离,智能体的认知不会与真实世界完全符合。

Motivation: resisting a tendency to disorder

More precisely, the repertoire of physiological and sensory states in which an organism can be is limited, and these states define the organism’s phenotype. Mathematically, this means that the probability of these (interoceptive and exteroceptive) sensory states must have low entropy; in other words, there is a high probability that a system will be in any of a small number of states, and a low probability that it will be in the remaining states. Entropy is also the average self information or ‘surprise’8 (more formally, it is the negative log-probability of an outcome). Here, ‘a fish out of water’ would be in a surprising state (both emotionally and mathematically). A fish that frequently forsook water would have high entropy. Note that both surprise and entropy depend on the agent: what is surprising for one agent (for example, being out of water) may not be surprising for another. Biological agents must therefore minimize the long-term average of surprise to ensure that their sensory entropy remains low. In other words, biological systems somehow manage to violate the fluctuation theorem, which generalizes the second law of thermodynamics9

在智能体(agent)能感受到的所有状态(sensory states)中,很少一部分状态占据了绝大部分概率,而绝大部分状态的概率很小。也就是说,sensory states的熵(entropy)很小。

举个栗子,看到鱼在天上飞的概率很小,所以 − log ⁡ p 看到鱼在天上飞 -\log p_{看到鱼在天上飞} logp看到鱼在天上飞 很大,这个状态的自信息(熵是平均自信息)很大,这时我们称看到鱼在天上飞是一个 surprising state.

因此,处于内稳态(Homeostasis)的智能体必须保持sensory states的熵处于一个较低水平,即长时期内surprise的平均值很小。这与涨落定理(fluctuation theorem,远离热力学平衡态时一段时间内熵可以有升有减,但是熵减的概率随时间指数状降低)相违背。

A system cannot know whether its sensations are surprising and could not avoid them even if it did know. This is where free energy comes in: free energy is an upper bound on surprise, which means that if agents minimize free energy, they implicitly minimize surprise. Crucially, free energy can be evaluated because it is a function of two things to which the agent has access: its sensory states and a recognition density that is encoded by its internal states (for example, neuronal activity and connection strengths). The recognition density is a probabilistic representation of what caused a particular sensation.

Recognition density(Or ‘approximating conditional density’.) is an approximate probability distribution of the causes of data (for example, sensory input). It is the product of inference or inverting a generative model.

那么智能体如何最优化surprise的均值呢?令自由能(free energy)为surprise的上界(不一定取到),优化自由能即可。而自由能是sensory states和recognition density(对sensory states原因的概率表示)的函数。

自信息,信息熵,交叉熵,相对熵

https://www.zhihu.com/question/41252833

I ( x ) = − log ⁡ p ( x ) I(x)=-\log p(x) I(x)=logp(x)
H ( P ) = E X ∼ P [ I ( x ) ] = ∑ − p ( x ) log ⁡ p ( x ) H(P)=E_{X\sim P}[I(x)]=\sum-p(x)\log p(x) H(P)=EXP[I(x)]=p(x)logp(x)
信息熵 H ( X ) H(X) H(X) 表示不确定性,即要猜几次才能消除不确定性。自信息 I ( x ) I(x) I(x) 表示每个事件能提供的信息,如果概率越小的事件发生了,那么它能提供的信息就越大。

交叉熵表示利用非真实分布的策略去消除不确定性需要付出的努力(猜几次)
H ( p , q ) = ∑ − p ( x ) log ⁡ q ( x ) H(p,q)=\sum -p(x)\log q(x) H(p,q)=p(x)logq(x)
其中 p p p 为真实分布, q q q 为非真实分布。猜中 x x x发生能得到的信息量是 − log ⁡ q ( x ) -\log q(x) logq(x),但是只有 p ( x ) p(x) p(x) 的概率猜中。

相对熵表示非真实分布相对真实分布损失了多少信息,又称KL散度
K L ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = ∑ p ( x ) log ⁡ p ( x ) q ( x ) KL(p||q)=H(p,q)-H(p)=\sum p(x)\log \frac{p(x)}{q(x)} KL(p∣∣q)=H(p,q)H(p)=p(x)logq(x)p(x)

压缩即智能

看这里
即LLM是无损压缩,压缩后大小就是交叉熵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值