《数学之美》阅读笔记(一)(二)(三)

一:

今后各章节讨论的重点:

通信的原理和信息传播的模型

信源编码和最短编码

解码的规则,语法

聚类

校验位

双语对照文本,语料库和机器翻译

多义性和利用上下文消除歧义性


二:自然语言处理

从基于规则到基于统计


三:统计语言模型

用数学的方法描述语言规律:一个句子是否合理,看他的可能性大小如何。至于可能性就用概率来衡量。

假定S描述一个有意义的句子,w1,w1,...,wn代表组成句子的词。现在想知道S在文本中出现的可能性,也就是数学上说的P(S)=P(w1w2...wn);

利用条件概率的公式,这个概率可以被计算。但是条件概率越往后面越难以计算。

马尔科夫提出一个简单偷懒的方法。每当遇到这种情况,就假设任意一个词Wi出现的概率比只与他前面的一个词有关,叫做马尔科夫假设。

P(S)就变得简单计算了。P(S)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1)


P(Wi|Wi-1)=P(Wi-1,Wi)/P(Wi-1)

#(Wi-1,Wi)代表这对词在统计的文本中前后相邻出现了多少次。

#(Wi-1)代表Wi-1本身在同样的文本中出现了多少次。


上面两个数分别比上语料库的大小#,变得到这些词或二元组的相对频度。

根据大数定律,相对频度等于概率,在统计量足够多的前提下。

所以上面两个结果直接相比就是条件概率密度。


以上假设过于简单。通常假设一个词Wi会和前面的N-1个词有关,而与更前面的词无关。这样当前次Wi的概率只取决于前面N-1个词。

P(Wi|W1,W2,W3...Wi-1)=P(Wi|Wi-n+1...Wi-1)

这个称为N元模型,N=2的情况就是上面那个。实际中应用最多的是3元模型。资源的耗费随N极速上升。


而依照上述公式时,出现次数为0代表概率为0.分子分母都出现一次则代表概率为1.

在数理统计之中,之所以敢用对采样数据进行观察的结果来预测概率,是因为有大数定律。要求有足够多的观测值。


提出一个方法:在统计中相信可靠的统计数据,而对不可信的统计数据打折扣的一种概率估计方法。同时将折扣出来的那一小部分概率给予未看见的事件。

计算那些出现r次的词的概率时,要使用一个更小一点的次数,dr,而不直接用r:

dr=(r+1)Nr+1/Nr

显然dr*Nr求和也是N,(对所有r求和)

之前的rNr求和也是N。


Zipf定律:出现一次的词数量比出现两次得多,如此类推。

可以看出r越大,Nr越小,Nr+1<Nr,所以一般情况下dr+1<r,而d0>0;这样一来,给未出现的词赋予了一个很小的非零值。从而解决了0概率的问题。同时下调了出现频率很低的词的概率。


在实际的自然语言处理中,一般对出现次数超过某个阈值的词,频率不下调,只对出现次数低于这个阈值的词,频率才下调。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
离散数学笔记 1. 集合 集合是离散数学的基础概念之一。一个集合是由一些元素组成的,这些元素可以是数、字母、符号、图形等等。 - 集合的表示方法 集合可以用大括号{}表示,元素之间用逗号隔开。例如,{1,2,3,4}表示一个由1、2、3、4四个元素组成的集合。 - 集合的基本运算 并集:表示集合A和集合B中所有元素的集合,用符号∪表示。例如,A={1,2,3},B={3,4,5},则A∪B={1,2,3,4,5}。 交集:表示同时属于集合A和集合B的元素的集合,用符号∩表示。例如,A={1,2,3},B={3,4,5},则A∩B={3}。 差集:表示属于集合A但不属于集合B的元素的集合,用符号-表示。例如,A={1,2,3},B={3,4,5},则A-B={1,2}。 补集:表示集合A中不属于集合B的元素的集合,用符号A-B表示。例如,A={1,2,3},B={3,4,5},则A-B={1,2}。 2. 命题逻辑 命题逻辑是一种研究命题之间的逻辑关系和推理规律的数学分支。命题是指可以判断真假的陈述句。 - 命题的表示方法 命题可以用字母或符号表示。例如,P表示“今天是星期天”。 - 命题的逻辑运算 非运算:表示取反,用符号¬表示。例如,¬P表示“今天不是星期天”。 合取运算:表示“且”,用符号∧表示。例如,P∧Q表示“今天是星期天并且明天是星期一”。 析取运算:表示“或”,用符号∨表示。例如,P∨Q表示“今天是星期天或者明天是星期一”。 蕴含运算:表示“如果……那么”,用符号→表示。例如,P→Q表示“如果今天是星期天,那么明天是星期一”。 等价运算:表示两个命题具有相同的真值,用符号↔表示。例如,P↔Q表示“今天和明天都是星期天”。 3. 谓词逻辑 谓词逻辑是一种研究谓词之间的逻辑关系和推理规律的数学分支。谓词是指可以应用于一个或多个对象的属性或关系。 - 谓词的表示方法 谓词可以用字母或符号表示。例如,A(x)表示“x是一个人”。 - 谓词的逻辑运算 量词:表示谓词适用于某些对象或全部对象。有普遍量词∀和存在量词∃两种。例如,∀x A(x)表示“所有的x都是人”,∃x A(x)表示“存在一个x是人”。 连接词:表示谓词之间的逻辑关系。有合取词∧、析取词∨、蕴含词→、等价词↔等四种。例如,A(x)∧B(x)表示“x既是人又是男性”,A(x)∨B(x)表示“x是人或者x是男性”。 4. 图论 图论是一种研究图和图的性质的数学分支。图是由点和边组成的结构,点表示对象,边表示对象之间的关系。 - 图的基本概念 无向图:所有的边没有方向。 有向图:所有的边有方向。 简单图:没有自环和重边的图。 完全图:每个点都与其他点有边相连的图。 - 图的基本运算 路径:表示通过边相连的一系列点的序列。 回路:表示起点和终点相同的路径。 连通图:表示任意两个点之间都存在路径的图。 强连通图:表示任意两个点之间都存在有向路径的图。 生成树:表示包含所有点和最少边的树。 最短路径:表示两个点之间边权和最小的路径。 5. 组合数学 组合数学是一种研究离散结构之间的组合关系和计数方法的数学分支。 - 排列组合 排列:从n个不同元素中取出m个元素进行排列的方式数,用符号P(n,m)表示。 组合:从n个不同元素中取出m个元素进行组合的方式数,用符号C(n,m)表示。 - 项式定理 项式定理是组合数学中的一个重要公式,表示(a+b)^n的展开式中各项系数的规律。其公式为: (a+b)^n=C(n,0)a^n + C(n,1)a^(n-1)b + C(n,2)a^(n-2)b^2 + … + C(n,n)b^n 其中C(n,m)表示从n个不同元素中取出m个元素进行组合的方式数。 - 错排问题 错排问题是组合数学中的一个经典问题,表示n个元素的排列中,恰好有m个元素排列正确的方式数。其公式为: D(n,m)=(n-m)(D(n-1,m-1)+D(n-2,m-1)) 其中D(n,m)表示n个元素的排列中,恰好有m个元素排列正确的方式数。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值