中秋国庆长假,什么地方都没去,只是静静呆在家里读书和写东西。所读的书种类不多,但却给我带来深刻的思考。
如何给语言文字建立数学模型,一直是我既感兴趣又觉得无从设想因而深感困惑的领域(关心这个领域不是我的工作,只是出于兴趣)。吴军博士的《数学之美》给我解了惑。以下是我的读后感:
一、计算机或曰电脑,在处理文字时,并不是在思考什么,更不是在欣赏什么,只是在计算,高速地计算!至少到目前为止,不是在计算的电脑还没有被研制出来。
二、在如何为电脑处理文字信息提供合适的数学模型这个问题上,曾经有两类思路,一是基于语法规则,另一是基于语料库统计。两者竞争的结果是后者大胜于前者。这个赛果大大出乎深信严格性并信奉“上帝不掷骰子”的很多科学工作者所料,统计模型的这种有效性同样也大大出乎我之所料。我猜想,基于语法规则的方法之所以失败,可能是源于这种方法在面对几乎无限丰富的语言文字信息时会带来分析上的“组合爆炸”。统计方法的成功,则在于其“系综化”地处理语言的位序信息,从而避免了“组合爆炸”的发生。
三、书中介绍的TF-IDF方法,本质上是一种实用主义的方法(因而不是理想主义的方法),数学上是自映射的,自指的,内生的,是一种典型的“分析-综合”兼备的方法。在辩识出规则之前,没有人为的、先验的东西,一切规则的发掘都源于统计的发现,规则被“发现”之后反过来成了分类、排序的“依据”。
四、书中介绍的最大熵模型,以前在读理论地理学时接触过,形式上很吓人,一长串的指数,但对其要描述事物的本质还是不甚清晰的。吴博士的讲述让我有一种醍醐灌顶的感觉。哦,其实它本质上是极为简单的,也就是我们在日常生活中会常常运用的常识:你若对一件事可能出现的结果完全无知(完全!),你就将各种可能性假设为等概率就成了。这个假设在处理语言文字信息中,也有着超乎常理的有效性。我猜想,其有效性的根源在于语言信息的极度丰富性(而不是其规则性)而令到你其实更接近于“无知”。
五、图论在处理语言信息中的作用主要是分析性的,其功能是清晰化语素之间关系的有或无,关系的强度则由统计模型给出。我在十年前的MBA毕业论文中就大致是这样运用图论的,所以这种思路读来特别的亲切。
六、余弦定理在文字信息比较中的应用令人叹为观止!读完第14章《余弦定理和新闻的分类》之后,我甚至觉得这个工具原则上是可以用于任何事物之间作定量比较的。人与人、物与物、作品与作品、理念与理念、制度与制度、地区与地区、......等等等等。
七、关于学习的本质,读完这本书我又有了新的认识上的提高。学习有几个要点:一是要有“见识”,在语言文字信息处理问题上就是要有不断更新的语料库;二是要善于“总结”,在这里就是要运用统计手段去发现规律(规则);三是不能“守旧”,要承认规则是动态的,也就是要不断总结,不能“一本通书读到老”;四是要调整系统的“行为”,要按动态的规则去处理信息。总结之下,学习就是“长见识、善总结、弃守旧、调行为”的四步过程的统一体,缺一不可!
八、书中介绍的“期望最大化算法”,原则上也是可以用于对任何事物的无先入之见的分类方法,连分类结构本身都能在分类运算中迭代完成,怪不得被称为“上帝的算法”。但对如何形成分类结构我还没读懂,不知能向谁请教。
九、书的文字风格也是我极喜欢的,吴博士说,是两本书在影响着他的写作,一是伽莫夫的《从一到无穷大》,另一是霍金的《时间简史》。我说怪不得,我也是这两本书及作者的粉丝呢。
一气呵成就写这么多了。总之,这是一本完美的书!