《数学之美》读书笔记(三):第11章~第15章

第十一章 如何确定网页和查询的相关性
1.对搜索相关性贡献最大的是根据用户对常见搜索点击网页的结果得到的概率模型。
2.影响搜索引擎的诸多因素:完备的索引;对网页质量的度量;用户偏好;确定一个网页和某个查询的相关性的方法。
3.根据网页的长度,对关键词的次数进行归一化。
4.度量网页和搜索的相关性,就一个简单的方法就是直接使用各个关键词在网页中出现的总词频。
5.在度量相关性时不考虑停止词的频率。
6.需要对汉语中的每一个词一个权重,这个权重的设置必须满足:一个词预测主题的能力越强,权重越大;停止词的权重为零。
7.如果一个词只在很少的网页中出现,通过它就容易锁定目标,它的权重就应该大。反之,如果一个词在大量网页中出现,看到它仍然不清楚要找什么内容,它的权重就应该小。
8.逆文本频率指数IDF:log(D/Dw)
9.IDF的概念就是一个特定条件下关键词概率分布的交叉熵。

第十二章 有限状态机和动态规划
1.地址的描述虽然看上去简单,但是它依然是比较复杂的上下文有关的文法,而不是上下文无关。
2.有限状态机是一个特殊的有向图,它包括一些状态(节点)和连接这些状态的有向弧。每一个有限状态机都有一个开始状态和一个终止状态,以及若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。如果一条地址能从状态机的开始状态经过状态机的若干中间状态,走到终止状态,则这条地址有效,否则无效。
3.使用有限状态机识别地址,关键要解决两个问题,即通过一些有效的地址建立状态机,已经给定一个有限状态机后,地址字串的匹配算法。
4.上述基于有限状态机

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值