数学之美-读书笔记11-15章

数学之美

第十一章 如何确定网页和查询的相关性

影响搜索引擎的诸多因素中,有如下比较重要:

  • 完备的索引
  • 对网页质量的度量
  • 用户偏好
  • 确定一个网页和某个查询的相关性的方法

1搜索关键词权重的科学度量-TF-IDF

词频的概念:TF

还有一个你文本频率指数

使用上述两个概念对搜索关键词权重进行衡量

第十二章 有限状态机和动态规划-地图与本地搜索的核心技术

2008年是第一款Android手机发布的日子,其杀手级应用是利用全球卫星定位系统实现导航;

其地址识别技术使用了有限状态机;
f

1地址分析和有限状态机

思考:山东省济宁市泗水县星村镇,这样的地址是上下文有关文法还是上下文无关文法呢?是有关的,因为中国可能有很多星村镇,那么我所描述的是哪个呢?需要根据上下文去判断;

这里有限状态机的应用是这样的:

  • 首先思考都有什么状态?
  • 输入山东省,说明该地址已经确定了省份
  • 输入济宁市,说明该地址已经确定了市份
  • ···
  • 状态有:省-市-县,诸如此类

那么这里面还面临一个问题:这里是精确搜索,只有出现了正确的地区名才能实现状态转移,那么如果用户打错了字呢?

这就需要模糊搜索的概念了,从而衍生出了基于概率的有限状态机;

有限状态机是有开源代码的,直接拿来用就好,其代码非常难写;

2全球导航和动态规划

规划行驶路径,其实用的是动态规划算法

小结

有限状态机和动态规划算法还用在:语音识别、拼写和语法纠错、拼音输入法、工业控制和生物序列分析等领域;

第十三章 Google AK-47的设计者-阿米特·辛格博士

AK-47有什么特点呢?不从卡壳,不易损坏,任何环境下都能用,可靠性好,杀伤力大,操作简单;

同理,作者认为一个好的算法也应该像AK-47冲锋枪那样:简单、有效、可靠性好、易读性好;

作者讲述了在Google工作的示例:说使用了非常简单的分类器再加上一系列简单、高效并不完美的算法将作弊数目减少了一半之多;

阿米特·辛格博士并没有要求重新设计准确率更好的算法,而是认为这已经够好了,就是这样的指导思想;

先帮助用户解决80%的问题,再去下功夫解决另外20%的问题,这是在工业界成功的秘诀;

之后不少员工试图用更精确的方法去替代那些AK-47算法,后来发现辛格的方法无论在任何时候都接近最优解决方案,而且快得多;

而且辛格要求对搜索质量的改进要能说得通,无法解释的改进看上去不错,但是可能称为未来的隐患,因此他们不会采用;

他的那些简单而有效的解决方案,常常是深思熟虑去伪存真的结果;

简单哲学是非常好的;

第十四章 余弦定理和新闻的分类

新闻的分类很大程度上就是靠的余弦定理;

1新闻的特征向量

比较无聊···

新闻的特征就是各种词汇的TF-IDF值

2向量距离的度量

余弦定理,省略了···

第十五章 矩阵运算和文本处理中的两个分类问题

文本和词汇的矩阵

这里面的主题就是使用奇异值分解来加速矩阵的运算;

奇异值分解适用于超大规模文本的粗分类;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值