《数学之美》1-4章 概要

1-2

1、阿拉伯(印度)数字的记法真的比罗马数字等有质的优越性,更是吊打玛雅文明那些复杂而难以流传的文字、符号。这可能和不同算法造成几个数量级差距的耗时有点像。

2、信息的冗余是信息安全的保障、双语或多语的对照语料对翻译至关重要(这两点很自然,但作者额外标记了,所以先记下来)

3、刚开始读到古代中国的人们聊天时运用白话、写作时运用文言文是对信道宽窄理论的自发应用时感到很神奇,毕竟信号学是很现代的东西。但后来想了想,科学家们发展的理论不正是从自然中提取出来的规律,那些社会学理论、仿生学等不就是从活生生的人、动物的行为/特点等观察实验分析总结后提出来的结论吗?要是古时候人们不自发运用这些相对基础的规律(延申的规律相对难以自发体现,需要深入研究),反而会让人觉得奇怪。

4、犹太人校验码的想法不错!有编程debug内味儿了

5、语言的概括性是由用语需求自然推动的

6、用统计学处理自然语言完胜繁琐的规则树处理方式(后面章节作者会继续探讨)

7、作者提到的“老科学家”(由钱钟书提到的概念)很有趣。钱的例子得到那里也有,大家很喜欢提他耶

3-4

1、大刀阔斧抓重点,对于性价比低的数据直接丢掉——计算机处理语言模型时,最多只管到该词与前面四个词之间连续出现的概率。管多了获益增幅小,计算成本却以指数级增加。2-3词往往已经能解决绝大多数的问题

2、解决数据有限的问题(看起来很多的数据,在数量级上,至少在自然语言处理的发展初期,是“喂不饱”计算机的)——为了有效规避因为数据少而出现次数过少的情况直接算作概率接近零,专家们提出了一套算法,大概是如果一个事件出现的概率过低,那就从其它较大概率事件中匀一点给它,匀多少和模型的几个变量有关,处理这种模型是计算机擅长的,可以有效减少统计错误。

3、提到了语料选取,作者还没有展开细讲

4、分词的基本逻辑:扫描词典,遇到词典里有的词就先分开,遇到能和前词组合的词就合并。若遇到歧义点不好分词,可计算一下这些分词方式连接成的句子的出现的可能性,选择可能性最大的情况纳入。(提到了这种算法计算量太大,可用动态规划、维特比算法简化,待探究)关键问题:对颗粒度的区分(北京/大学【嵌套】还是北京大学),不同的应用场景需要不同的颗粒度,设计程序时应当最大化利用共用程序,减少工作量,让不同颗粒度的算法之间切换自然。分词的准确性早期要靠人工衡量,但人工的差异性较大,现在机器语言识别发展的已经脚好了,一般都比人工方差小,不必再纠结于同人工比较。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值