数学之美~阅读

数学之美目录 数学之美目录统计语言模型谈谈中文分词隐马尔科夫在语言处理中的应用怎样度量信息布尔代数和搜索引擎的索引图论和网络爬虫信息论在信息处理中的应用贾里尼克的故事和现代语言处理如何确定网页和查询的相关性有限状态机和地址识别Google的阿卡47制造者阿米特辛格博士余弦定理和新闻分类信息指纹及其应用谈谈数学模型的重要性繁与简 自然语言处理的几位精英不要把所有的
摘要由CSDN通过智能技术生成

数学之美


目录


1. 统计语言模型

  假设一个有意义的句子 S 由词 w1,w2,...,wn 组成,则句子 S 出现的概率可以表示为:

P(S)=P(w1)P(w2|w1)P(w3|w2,w1)P(wn|wn1,wn2,...,w1)

  从上式看出,一个词出现的概率取决于前面所有的词,然而从计算上来看,各种可能性太多,无法实现,所以可以假设一个词出现的概率只与其前一个词有关(即马尔科夫假设~ 注意,该假设为何有效?),上式可以进行进一步得到:

P(S)=P(w1)P(w2|w1)P(w3|w2)P(wn|wn1)

  计算 P(wn|wn1) 可以使用贝叶斯公式 P(wn)=P(wn,wn1)P(wn1) ,利用统计语言模型可以先得到在统计的文本中 (wn,wn1) 出现了多少次,以及 wn1 出现多少次,两个次数之比即可得到结果。

  统计语言模型比任何已知的借助某种规则的方法都有效!

贝叶斯公式: P(A|B)=P(A,B)P(B),P(A,B)=P(B|A)P(A)


2. 谈谈中文分词

  统计语言模型是建立在词的基础之上的,对于中日韩等语言,首先应该进行分词。如“中国航天官员应邀到美国与太空总署官员开会”。分成一穿词:中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会
  我们可以想到的最简单的分词方式是查字典,从左到右扫描句子,碰到一个词典中有的词就标识出来,遇到复合词(如:“上海大学”)就找词匹配,遇到不认识的字串就分割成单字词。然而这种分词方法缺点是不能处理二义性的分割(如:“发展中国家”被分割成“发展-中国-家”)。
  90年代后,清华的郭进博士用统计语言模型成功解决二义性问题,将汉语分割的错误率降低一个数量级。上面一堆都是铺垫,,,重点来了,该方法用数学公式简单概括如下:
  假定句子 S 有以下几种分词方法:
  - A1,A2,A3,...,Am
  - B1,B2,B3,...,Bn
  - C1,C2,C3,...,Ck
  最好的一种方法应该保证分完词后该句子出现的概率最大,也就是说如果 A1,A2,A3,...,Am 是最好的分词方法,则

P(A1,A2
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值