[简要笔记]数学之美

1 统计语言模型

 如果s是由顺序词w1 w2 ... wn组成,那么s是一个有意义的句子的可能性(出现在正是文本中的可能性),可以表示为P(2).

那么P(s) = P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1)

每个词以前面的x个词出现为条件,马尔可夫假设x=1

2 中文分词

字典法:从左向右扫描字符串,如果字典里有,就标注出来,遇到复合词,就选最长匹配。不认识的子字符串就分成单个词。

王晓龙理论:句子应该分成数量最少的词串 (歧义性不能识别)

郭进:S的分词方法有a1a2a2,b1b2b3,c1c2c3

 P(a1,a2,a3) > P(b1,b2,b3)

P(a1,a2,a3) > P(c1,c2,c3)

则第一个分类是最好的。但是 穷举实现非常困难。方法是利用维特比快速实现(还不了解怎么实现)

3 HMM

 如果输入是中文s1 s2 s3 输出是英文o1o2o3

则倒推的概率p(s2,s2,s3|01,o2,o3) = p(o1,o2,o3| s1,s2,s3)*p(s1,s2,3)

si 只由si-1决定

oi只由si决定,即p(o1,o2,o3|s1,s2,s3)=p(o1|s1)p(o2|s2)p(o3|s3).

然后找出最大的那组s1s2s3.

4 度量信息和熵

--》可以参考MIT的公开和信息与熵

联合熵(joint entropy)
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为:
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量

5 布尔代数和搜索引擎

关键词1在每个网页中出现,可以表示为向量001000001011100000000,关键词2的向量是01100101000000000000

二者与一下就是满足两个关键词的网页

6爬虫,没看

7 信息论在语言模型中的应用

语言模型是根据上下文预测当前文本的模型,模型好坏又信息熵衡量。

模型复杂度:

每个位置填入词的可能行有多少种。0元996 2元60,2元中考虑前后搭配概率则为20

这里面用到信息论的内容,贴过来的:






理解如下

条件熵:是X熵信息的确定情况下,Y信息的不确定的度量 H(Y|X) = -Xigama(X)Xigma(Y)  P(y|x)logP(y|x)

联合熵:多变量一起带来的信息量,他比任何一个变量的信息都要多 H(x,y) >= H(x) 并有 H(X,Y) = H(X) + H(Y|X)

互信息:两个集合的相关性 I(x,y)= H。。。。。我也不太理解H(x) - H(x|y)的意义解释。应该是这样,X的熵在知识Y确定条件下的缩减。

互不是共同,是交互和二者的意思。缩减量越大,二者阅相关。

相对熵(KLD):。。。。啥啊


8 查询结果和网页的相关性

--百度和goole用,NLP我就不写了,基本思想是计算TF*IDF,IDF为权重

9

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值