《数学之美》读书笔记

 

作者简介 
      吴军,在清华读完了本硕,去美国读了计算机博士,2002加入了google,为其资深研究员,主要搞语音识别和自然语音处理,2010年去腾讯当主管soso的副总裁,最近好像又回到google了,他写的另一本书《浪潮之巅》也很不错。IT男不可错过啊。

本书概况 
      读完本书,第一感受:次奥!原来数学如此多的原理模型概念都可以用去解决各种IT技术问题啊。特别是语言识别和自然语言处理这类问题完全就是建立在数学原理之上的。总之,这本书就是用非常深入浅出的话去说明如何用数学方法去解决计算机的各种工程问题。这是一本讲道,而不是术的书。 要完全读懂这本书,我觉得至少需要掌握这三门课:高等数学,离散数学,还有概率论与数理统计。唉..我当初数学学得太水了,还挂了高数啊...有好的概念没看懂,以后有时间在好好看吧。如果想搞计算机研究的话,数学基础必不可少,别总在抱怨各种数学课上的东西一辈子都用不着。 

读书笔记

     发现作者对人类自然发展的认识非常深,其从语言,文字,数学的产生发展,信息的传播记录得出了这个结论:信息的产生传播接收反馈,和今天最先进的通信在原理上没有任何差别。就算是科学上最高深的技术,那也是模拟我们生活中的一些基本原理。

      我们今天使用的十进制,就是我们扳手指扳了十次,就进一次位。而玛雅文明他们数完了手指和脚指才开始进位,所以他们用的是二十进制。实际上阿拉伯数字是古印度人发明的,只是欧洲人不知道这些数字的真正发明人是古印度,而就把这功劳该给了“二道贩子”阿拉伯人。

   

语言的数学本质

       任何一种语言都是一种编码方式,比如我们把一个要表达的意思,通过语言一句话表达出来,就是利用编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字,听者则用这语言的解码方法获得说话者要表达的信息。


自然语言处理模型
       计算机是很笨的,他们唯一会做的就是计算。自然语言处理在数学模型上是基于统计的,说一个句子是否合理,就看看他出现的可能性大小如何,可能性就是用概率来衡量,比如一个句子,出现的概率为1/10^10,另一个句子出现的概率为1/10^20,那么我们就可以说第一个句子比第二个句子更加合理。当然这要求有足够的观测值,他有大数定理在背后支持。


最早的中文分词方法
        这句话:“同学们呆在图书馆看书”,如何分词?应该是这样:同学们/呆在/图书馆/看书.最先的方法是北航一老师提出的查字典方法,就是把句子从左道右扫描一遍,遇到字典里面出现的词就标示出来,遇到复合词如(北京大学)就按照最长的分词匹配,遇到不认识的字串就分割成单个字,于是中文的分词就完成了。但是这只能解决78成的分词问题,但是“像发展中国家”这种短语它是分不出来的。后来大陆用基于统计语言模型方法才解决了。


隐含马可夫模型(没这么看懂)
       一直被认为是解决打多数自然语言处理问题最为快速有效的方法,大致意思是:随机过程中各个状态的概率分布,只与他的前一个状态有关。比如对于天气预报,我们只假设今天的气温只与昨天有关而与前天没有关系,这虽然不完美,但是以前不好解决的问题都可以给出近视值了。


一个让我印象深刻的观点:
       小学生和中学生其实没有必要花那么多时间去读书,其觉得最主要的是孩子们的社会经验,生活能力,和那时候树立起来的志向,这将帮助他们一生。而中学生阶段花很多时间比同伴多读的课程,在大学以后可以用非常短的时间就可以读完。因为在大学阶段,人的理解能力要强很多,比如中学要花500小时才能搞明白的内容,大学可能花100小时就搞定了。学习和教育是一个人一辈子的事情,很多中学成绩好的人进入大学后有些就表现不太好了,要有不断学习的动力才行。

余弦定理和新闻分类
        我在新浪干过一年多新闻,这篇认真看了一篇,很吃惊原理cos x与新闻分析也有关系啊。google的新闻服务是由计算机自动整理分类的。而传统的媒体如门户网站是让编辑读懂新闻,找到主题,再分类分级别的,真苦逼啊...计算机自动分类原理是这样:如一篇新闻有10000个词,组成一个万维向量,这个向量就代表这篇新闻,可以通过某种算法表达这个新闻主题的类型,如果两个向量的方向一致,说明对应的新闻用词一致,方向可用夹角表示,夹角可用余弦定理表示,所以当夹角的余弦值接近于1时,这两篇新闻就可以归为一类了。


没看懂的东西:
布尔代数:布尔代数把逻辑学和数学合二为一,给了我们一个全新的视角看世界...
网络爬虫的基本原来是利用了图论的广度优先搜索和深度优先搜索...
搜索引擎的结果排名用了稀疏矩阵的计算...
地图最基本的计算是利用了有限状态机和图论的最短路径...
密码学原理,最大熵模型,拼音输入法的数学模型,布隆过滤器,贝叶斯网络等等...


      任何事物都有它的发展规律,当我们认识了规律后,应当在生活工作中遵循规律,希望大家透过IT规律的认识,可 以举一反三的总结学习认识规律,这样有助于自己的境界提升一个层次。 


       任何问题总是能找到相应的准确数学模型,一个正确的数学模型在形式上应当是简单的,一个好的方法在形式上应当也是简单的。简单才是美。 









  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值