《数学之美》读书笔记

最新推荐文章于 2024-07-24 11:07:07 发布

电子信息的救赎

最新推荐文章于 2024-07-24 11:07:07 发布

阅读量112

点赞数

分类专栏：读书笔记文章标签：自然语言处理网络协议 p2p

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42105419/article/details/125020427

版权

读书笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

简介

数学之美这本书深入浅出带你领略数学王国的魅力，一些小点子带给你带来颠覆性的认知。

第一章自然语言

“语言是一种编码方式，而语法规则是编解码的算法”。当计算机一出现，就涉及两个认知方面的问题：

1）计算机能否处理自然语言；

2）处理方法与人类是否一致。

两个问题的答案都是肯定的。

第二章自然语言处理NLP

从规则到统计

但一个较长的语句，文法规则的数量少说也有几万条，完整写出不切实际，而且这些规则写到后来会发现与前面的规则自相矛盾，为解决这些矛盾，又需要一批解释矛盾的语法规则。所以在上个世纪70年代，基于规则的句法分析（包括文法分析或者语义分析）很快就走到了尽头。

1970年以后出现的统计语言学使得自然语言处理重获新生。领导IBM华生实验室（T.J.Watson）的关键人物弗里德里克·贾里尼克（Frederick Jelinek）首次采用统计的方法解决语音识别的问题，引起了自然语言处理界的轰动。

第三章统计语言模型

利用数学表示上下文相关的特性。“基于统计方法的核心模型是通信系统加隐含马尔可夫模型”

一个句子，每一个出现的字/词都与之前或之后的字/词有关，而我们要做的就是估计这些字/词搭配的可能性。（比如：“发表”和“文章”搭配更合理，而“发掘”和“文物”更应该搭配）

假设S表示一个句子， $w_{i}$ 表示组成S的词，那么（一种偷懒却有效的方法）：

二元模型（Bigram Model）：若假设与前N-1个词有关，就称为N元模型，当N超过3个时将会变得非常复杂，效果也不是很好，因此实际上 N=3 才是使用最多最有效的方法，再往上就得不偿失，消耗资源不说，效果提升也不明显

下面的问题就是如何估计条件概率 $P(w_{i}|w_{i-1})$ 概率数据的数值与其准确性与其所取的语料库有很大的关系。基于大数定理，只要统计量足够，相对频度就等于概率。实际上便是词b和词a同时出现相邻的次数 $\pi (w_{i-1},w_{i})$ ，以及词b本身在同样的语料库中出现的次数 $\pi (w_{i-1})$ ，这两个数分别除以语料库大小 $\pi$ ，就可以得到这些词或者二元组的相对频度：

$P(w_{i-1}|w_{i})\approx \frac{\pi (w_{i-1},w_{i})}{\pi (w_{i-1})}$

第四章分词

利用统计语言模型分词的方法，假定一个句子S可以有几种分词的方法：那么最好的分词方法应该保证分完词后这个句子出现的概率最大。如此便可转化为如第三章的求解。

第五章隐含马尔可夫模型

第六章信息的度量和作用

第七章贾里尼克和现代语言处理

电子信息的救赎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数学之美》读书笔记

简介数学之美这本书深入浅出带你领略数学王国的魅力，一些小点子带给你带来颠覆性的认知。第一章自然语言“语言是一种编码方式，而语法规则是编解码的算法”。当计算机一出现，就涉及两个认知方面的问题：1）计算机能否处理自然语言；2）处理方法与人类是否一致。两个问题的答案都是肯定的。第二章自然语言处理NLP从规则到统计但一个较长的语句，文法规则的数量少说也有几万条，完整写出不切实际，而且这些规则写到后来会发现与前面的规则自相矛盾，为解决这些矛盾，又需要一批解释矛盾的语法规则。所..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。