文章目录
数学之美
第十一章 如何确定网页和查询的相关性
影响搜索引擎的诸多因素中,有如下比较重要:
- 完备的索引
- 对网页质量的度量
- 用户偏好
- 确定一个网页和某个查询的相关性的方法
1搜索关键词权重的科学度量-TF-IDF
词频的概念:TF
还有一个你文本频率指数
使用上述两个概念对搜索关键词权重进行衡量
第十二章 有限状态机和动态规划-地图与本地搜索的核心技术
2008年是第一款Android手机发布的日子,其杀手级应用是利用全球卫星定位系统实现导航;
其地址识别技术使用了有限状态机;
f
1地址分析和有限状态机
思考:山东省济宁市泗水县星村镇,这样的地址是上下文有关文法还是上下文无关文法呢?是有关的,因为中国可能有很多星村镇,那么我所描述的是哪个呢?需要根据上下文去判断;
这里有限状态机的应用是这样的:
- 首先思考都有什么状态?
- 输入山东省,说明该地址已经确定了省份
- 输入济宁市,说明该地址已经确定了市份
- ···
- 状态有:省-市-县,诸如此类
那么这里面还面临一个问题:这里是精确搜索,只有出现了正确的地区名才能实现状态转移,那么如果用户打错了字呢?
这就需要模糊搜索的概念了,从而衍生出了基于概率的有限状态机;
有限状态机是有开源代码的,直接拿来用就好,其代码非常难写;
2全球导航和动态规划
规划行驶路径,其实用的是动态规划算法
小结
有限状态机和动态规划算法还用在:语音识别、拼写和语法纠错、拼音输入法、工业控制和生物序列分析等领域;
第十三章 Google AK-47的设计者-阿米特·辛格博士
AK-47有什么特点呢?不从卡壳,不易损坏,任何环境下都能用,可靠性好,杀伤力大,操作简单;
同理,作者认为一个好的算法也应该像AK-47冲锋枪那样:简单、有效、可靠性好、易读性好;
作者讲述了在Google工作的示例:说使用了非常简单的分类器再加上一系列简单、高效并不完美的算法将作弊数目减少了一半之多;
阿米特·辛格博士并没有要求重新设计准确率更好的算法,而是认为这已经够好了,就是这样的指导思想;
先帮助用户解决80%的问题,再去下功夫解决另外20%的问题,这是在工业界成功的秘诀;
之后不少员工试图用更精确的方法去替代那些AK-47算法,后来发现辛格的方法无论在任何时候都接近最优解决方案,而且快得多;
而且辛格要求对搜索质量的改进要能说得通,无法解释的改进看上去不错,但是可能称为未来的隐患,因此他们不会采用;
他的那些简单而有效的解决方案,常常是深思熟虑去伪存真的结果;
简单哲学是非常好的;
第十四章 余弦定理和新闻的分类
新闻的分类很大程度上就是靠的余弦定理;
1新闻的特征向量
比较无聊···
新闻的特征就是各种词汇的TF-IDF值
2向量距离的度量
余弦定理,省略了···
第十五章 矩阵运算和文本处理中的两个分类问题
文本和词汇的矩阵
这里面的主题就是使用奇异值分解来加速矩阵的运算;
奇异值分解适用于超大规模文本的粗分类;