数学之美-读书笔记

第一章:文字和语言 vs 数字和信息

文字增长到一定数量就不再增加,因为人们记不住辣么多,便开始归纳和总结,一字多义;遇到歧义怎么办?上下文。

如果不同语言之间要交流文明,这就需要翻译。翻译的理论基础:语言只是信息的载体。

“罗塞塔石碑”的历史,说明,信息冗余是信息安全的保障。


数字的出现是因为人们的财产多到需要数一数才能搞清楚的时候。

为什么今天我们用十进制?因为我们早期就是通过数手指头来数数的。如果我们有12个手指,那么现在我们一定用十二进制。哈哈(那么有没有用二十进制的文明呢?有,玛雅文明,玛雅人的一个世纪是400年)

中国人和罗马人的数字解码规则:

    • 100万: 100*10000 (中国用乘法)
    • IV :5-1 = 4 ;VII:5+2 = 7(罗马用加减,但是100万,估计要MMMMM。。。地不断写下去)
当然,最牛逼的还是 古印度人,他们发明了 range(10) ,虽然比中国和罗马抽象,但是使用方便,后来被阿拉伯人传入欧洲,就被称为阿拉伯数字。。从此数字和文字分离。

背后的数学:
  • 大多常用字笔画少,而生僻字笔画多---信息论中的最短编码原理。
  • 蔡伦发明纸张之前,书写文字,惜墨如金;但是口语却和今天差别不大。------在通信时,如果信道较宽,信息不必压缩就可以直接传递。
  • 古犹太人抄写《圣经》时,要检查每一行、每一列的校验码。

第三章:统计语言模型

卡茨退避法可以解决零概率和小概率问题、语料库的相关性。

第四章:谈谈分词

1、查字典

2、查字典理论化--最少词数的分词理论

3、统计语言模型--看不同分词出现的概率。

4、中文分词方法可以用于英文(识别手写体,手写体没有空格。。。。)

5、分词的不一致性

  • 错误
    • 越界型错误:“北京大学生” ——“北京大学”
    • 覆盖型错误:“贾里尼克” --四个字
  • 颗粒度不一致
    • 某些应用,尽可能找到各种复合词。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值