一个词比如“苹果”,这个词是有意义的。把这个词拆开“苹”和“果”,也都分别有意义。但是不存在无限多的汉字从“苹”连续过渡到“果”。如果用汉字为坐标做一个数轴,一个人想从“苹”运动到“果”,他只能在两个坐标间跳着走。这显然是离散的。
所以如果文字是离散的,把语言理解为以文字为坐标的运动,这种运动不可能是连续的。对这种有明显离散特征的运动有理由适用薛定谔方程。
哈密顿算符H表达对运动的约束。具体到语言环境,直观上理解约束至少应该包括外部物质环境,人的心情和上下文语境。比如同一句诗一千年前的人和现在的人读的感想肯定差别很大,不同年龄段的人读同样的诗的理解差别也很大。所以有理由相信,NLP无论自然语言理解或者翻译的训练数据,除了上下文语境之外至少应该包括作者的外部环境和作者的心境,以及读者外部环境和读者的心理诉求。
波函数ψ表达粒子的分布。如果运动是以文字为坐标,所谓分布就是用哪些字。所以这里ψ就是阅读理解的答案。
能级E表明粒子的稳定性,能级越低越稳定。比如阅读理解,一个好的答案就是一个不想再改的答案,也就是一个稳定的答案。同样追求的是稳定这和物理的逻辑是一样的。
可以很容易的举出一个能级分裂的现象,去证明这个运动的离散特征。比如早上问好,可以合理假设对有些人,你对他说“早”或者“早上好”对他来说没区别都合适,稳定性差不多比如能级都是0.9。但是对他说“hello”这个他可能感觉不太妥当,稳定性差些比如能级是0.8.
以能级为x轴,简并度为y轴,在能级0.8和0.9处分别有两条高度为1和2的谱线。
所以语言可以理解成是在物质环境,心境和上下文语境为哈密顿算符的约束下去计算与最低能级对应的波函数的过程。