《数学之美》--读书笔记

文字和语言 VS 数字和信息

香农-信息论
今天信息科学通信的基本原理是,如果信道较宽,信息不必压缩就可以直接进行传递;如果信道很窄,信息在传递之前要尽可能的压缩,然后在接收端进行解压缩。在古代,两个人说话很快是一个宽信道,无需压缩;而书写则是一个窄信道需要压缩也即是文言文的简洁性的一种体现。
不得不说古人的一些做法还是很有智慧的,比如圣经的抄写时候为了校验每一页抄的对与否,通过让每个文字代表一个数字,则每行有个值每列也有个值,则可以检验和原版这一页是否相同。所以现在社会的发达,信息传输方式的改变但是最基本的思想可能古代人的智慧还是能够给我们一些启发。

自然语言从规则到统计

由于自然语言的丰富性,以及对上下文语义的依赖性,对于自然语言的理解是有一定困难的。最初人们想到的方法是规则即对自然语言用规则去解释比如:我要去吃饭。主语【我】谓语【要去吃饭(动词)】句号【。】但是对于复杂的很长句子,我们在用规则去解释就会受到一定的束缚。后来基于统计方法的语言分析又被提出去解释自然语言。这在某种程度上来说是好的,因为常用的东西可以基本有80%甚至更多,从而可以做些粗略的判断,但是对于精确的系统还是不能够满足。

统计语言模型

自然语言很大程度上依赖于上下文,一个基本的问题就是为自然语言的上下文相关的特性建立数学模型。也即是常说的统计语言模型(Statistical Language Model)。
在数理统计中,之所以敢于用采样数据的观察结果来预测概率,是因为有大数定理(Law of Large Numbers)在背后作支持,它的要求是有足够的观测值。但是如果没有足够的训练数据的话,就可以通过平滑过渡的方法解决零概率和小概率的问题。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值