数学之美--浅见

目录

第一章,文字和语言vs数字和信息

第二章:自然语言处理--从规则到统计


“数学之美”最初是从2006年起在Google中国的官方博客---谷歌黑板报上连载的系列博客,作者吴军。他的“浪潮之巅”也是很著名的一本书。

数学,文字,和自然语言一样,都是信息的载体,他们之间就存在着关系。这次了解到了“数学之美”,推荐给大家读读。

第一章,文字和语言vs数字和信息

  • 通信的原理和信息传递的模型

通信的原理是什么?无疑就是信息的产生,传播,接收和反馈。

这里面的信息的产生,传播,接收和反馈。与今天的最先进的通信在原理上也没有任何差别。

文字的起源是因为随着人类文明的增长,人类仅靠大脑已经记不住所有的词汇了,也就如同今天一样,没有人能够记住所有的知识,高效的记录信息的需求便如此产生了。

中国(迄今发现的)最早的甲骨文出现在几千年前,但是尼罗河流域就有了更高度的文明,古埃及人发明了最早保存信息的方法--用图形记录信息。如古埃及的亚妮的死者之书。

  • 信源编码和最短编码

著名的美籍俄商物理学家乔治.伽莫夫( George Gamow,1904-1968)在他的科普读物《从- -到无穷大》- -书中讲了这样- -个原始部落中的故事。两个酋长要比一比谁说的数字大,一个酋长想了想,先说了“三”,第二个酋长想了半天,说你赢了。因为在原始部落,物质极其缺乏,超过三的时候很少,他们就称之为“许多”或者叫数不清。

所以,对于文字的编码问题,是十分重要的问题。毫无疑问,如果我们是十二个手指,今天我们就会是十二进制。数字和其他文字一样,在早期只是承载信息的工具,并不具有任何其他抽象的含义。

我们的祖先很聪明,他们发明了进位制,及逢十进一。即最先的对数字进行了编码。

那么是否有文明采用二十进制呢,也就是说他们数完全部的手指和脚趾才开始进位呢?答案是肯定的,这就是玛雅文明。因此,玛雅人的一个世纪,他们称为太阳纪,是四百年。2012年正好是目前这个太阳纪的最后一年,2013年将是新的太阳纪的开始。这是我在墨西哥从研究玛雅文化的教授那里得知的。不知道从何时起,2012年这个太阳纪的最后一年被讹传为世界的最后一年。当然,这是题外话了。

当今使用的数字,是古印度人发明的,他们发明了包括0在内的10个阿拉伯数字。为什么叫做阿拉伯数字,而不是叫做印度数字呢?原因就在于,古欧洲人将这个功劳归属于去欧洲经商的阿拉伯人。

 

  • 解码和规则,语法

语言从古代发展到现在的语言,在表达意思上比以前更加的准确,更丰富。也出现了从字母到词法的构词法,是词的编码规则。则词法就是对语言的编码和解码的集合。从数学上讲,对于前者可以有完,备的编解码规则,而后者则不具备这个特性。因此,任何语言都有语法,规则覆盖不到的地方,这些例外或者说不精确性,让我们的语言丰富多彩。虽然正统而教条的语言学家倾向于把这些例外作为“病句”,并且有的人毕其- -生的精力来消灭病句,纯化语言,但是事实证明这种工作是徒劳的。

聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法图论聚类法、聚类预报法等。

校验位:校验位又称奇偶校验位(英语:parity bit)是一个表示给定位数的二进制数中1的个数是奇数还是偶数二进制数。奇偶校验位是最简单的错误检测码。

第二章:自然语言处理--从规则到统计

  • 机器智能

最早提出机器智能的是计算机科学之父,阿兰·图灵。论什么是计算的机器和智能。图灵并没有给出研究的标准。但是提出了验证机器是否有智能的方法,即让人和机器进行交流,如果人不能够判断出与自己交流的是人还是机器时,就说明这个机器有智能了。此方法被后人称为图灵测试。

以前的学术界对人工智能和自然语言的理解只在于普遍认知:要让机器完成翻译或者语音识别这样只有人类才能做的事情,就必须让计算机理解自然语言,而做到这一点就必须让计算机有类似于我们人类这样的智能。如一个翻译,一定是了解两门语言的语法,语义等知识,这就是直觉的作用。在人工智能的领域,包括自然语言的处理领域,后来吧这样的方法论称为“鸟飞派”。意思就是只看鸟的飞翔,就可以造出飞机,而不用去了解空气动力学,不需要去了解物理,数学,等知识。

但是,事实上我们知道,福特兄弟造出飞机,不仅仅是只看鸟的飞行,只依靠仿生学的。而是考的空气动力学等知识。

在二十世界七十年代,当时的科学家头脑内部是这样认识自然语言的处理的。

就像我们学习编译原理,一句话内,通过词法分析,能够得到语法分析树,如:

徐志摩喜欢林徽因。

一个句子分为主语,动词短语(谓语)和句号三部分,对每一个部分进行分析,得到语法分析树。

这样的分析根据着一些重写规则。

句子---->主语谓语句号

主语---->名词

谓语---->动词   名词短语

名词短语---->名词

名词---->徐志摩

动词---->喜欢

名词---->林徽因

句号---->。

  • 从规则到统计

自然语言的处理方法,不是简单的对词语的语法分析,通过对规则的解读,便可以达到翻译的效果,在自然语言的底层,还有这人类情感与习惯的存在。

如,我们在日常生活中,各地不同的习俗会使一句话又不同的含义。

所以,单单使用规则已经不能够满足时代的发展了。而统计的出现,便是很好的解决对自然语言的处理的办法。新的方法越来越依靠数据的作用和浅显的自然语言的处理的工作。更深的去了解自然语言,就需要通过统计的方法,找出其中的规律,类似于当下的大数据。

 

这次就解读这么多,下次小二会慢慢解读出更多的知识。谢谢大家!

 

 

 

 

 

 

 

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值