关闭

《数学之美(第二版)》(三)

标签: 数学数学之美
756人阅读 评论(0) 收藏 举报
分类:

十一、如何确定网页和查询的相关性

       如今,影响搜索引擎质量的因素首先是用户的点击数据,除此之外还可归纳成下面的四大类:

       1)完备的索引。2)对网页质量的度量。3)用户偏好。4)确定一个网页和某个查询的相关性的方法。

       第四条便是这一章的内容。

       首先是介绍了搜索关键词权重的科学度量TF-IDF。一个简单的方法就是使用各个关键词在网页中的总词频。词频(TF, Term Frequency)是用关键词的次数除以网页的总字数。但是我们还应该忽略类似于“的”之类的停止词。还需要给每个词分配权重,有两个条件:一是一个词预测主题的能力越强权重越大,二是停止词的权重为零。另一个概念是逆文本频率指数(IDF, Inverse Document Frequency),公式为log(D/Dw),其中D指全部网页数,Dw指一个关键词w在Dw个网页中出现过。于是,相关性公式就变成了TF与IDF的加权求和。TF-IDF的概念被公认为信息检索中最重要的发明。

       最后是延伸阅读:TF-IDF的信息论依据。一个查询中每一个关键词w的权重应该反映这个词对查询来讲提供了多少信息。经过公式推导之后结论是一个词的信息量 I(w) 越多,TF-IDF值越大;关键词w命中的文献中w平均出现的次数越多,TF-IDF也越大。

十二、有限状态机和动态规划

       智能手机定位和导航功能三项关键技术:第一,利用卫星定位;第二,地址的识别;第三,根据用户输入的起点和终点,在地图上规划最短路线或最快路线。

       首先,讨论的是地址分析和有限状态机。地址的文法是上下文有关文法中相对简单的一种。最有效的识别和分析方法就是有限状态机。有限状态机是一中特殊的有向图,如果一条地址能从状态机的开始状态经过状态机的若干中间状态,走到终止状态,则这条地址有效,否则无效。使用有限状态机识别地址,关键要解决两个问题:一是通过一些有效的地址建立状态机,二是给定一个有限状态机后,地址字串的匹配算法。针对它必须严格匹配的问题,提出了基于概率的有限状态机,它和离散的马尔可夫链基本上等效,可以进行模糊匹配。两个典型的例子是AT&T的有限状态机工具库和Google Now。

       接下来讨论的是全球导航和动态规划。全球导航的关键算法就是图论中的动态规划(Dynamic Programming,DP)算法。将“寻找全程最短路线”的问题分解成一个个寻找局部最短路线的小问题。

       最后,又是延伸阅读:有限状态传感器。首先给出了有限状态机的严格的数学定义,然后指出在语音识别和自然语言理解领域应用的是加权的有限状态传感器(Weighted Finite State Transducer , WFST)。它的特殊性在于,有限状态机中的每个状态由输入符号和输出符号定义。

十三、Google AK-47的设计者:阿米特·辛格博士

       Google内部排序算法Ascorer里面的A便是他的名字首字母。作者首先讲了他们之间的关系,然后谈了设计的网络搜索反作弊分类器、中日韩排名新算法,指出辛格一直坚持寻找简单有效的解决方案。因为能很容易地解释每一个步骤和方法背后的道理。他之所以能找到那些简单有效的方法,是靠他丰富的研究经验。他被公认为是当今最权威的网络搜索专家。

十四、余弦定理和新闻的分类

       新闻的分类很大程度上依靠的是余弦定理。

       首先,谈到了新闻的特征向量。应该先把文字的新闻变成一组可计算的数字(向量),然后再设计一个算法来算出任意两篇新闻的相似性。对于一篇新闻中的所有实词,计算出他们的TF-IDF值。把这些值按照对应的实词在词汇表的位置依次排列,就得到一个向量。我们就用这个向量来代表这篇新闻,并称为新闻的特征向量(Feature Vector)。

       接下来谈的是向量距离的度量。可以通过计算两个向量的夹角来判断对应的新闻主题的接近程度。此时就要用到余弦定理了。夹角的余弦越接近1说明两个新闻越相似,越接近0越没关系。然后对于新闻分类的算法有两种情况:一是已知一些新闻类别的特征向量,那么对于要分类的新闻计算它和各类新闻特征向量的余弦相似性即可。二是事先并不知道这些新闻类别的特征向量。可采用弗洛里安和雅让斯基提出的自底向上不断合并的方法,层层迭代即可。

       最后是延伸阅读:计算向量余弦的技巧。对于大数据量时的余弦计算,首先分母部分(向量的长度)可记录下来,不需要重复计算。其次在计算分子即两个向量的内积时只需要考虑向量中的非零元素。最后还可以删除虚词。最后还要注意位置的加权。即出现在文本不同位置的词在分类时的重要性也不相同。

十五、矩阵运算和文本处理中的两个分类问题

       首先谈了文本和词汇的矩阵。用前述的余弦定理对新闻进行分类时,当新闻数量和此表都很大的时候可采用矩阵运算中的奇异值分解(Singular Value Decomposition, SVD)。然后解释了什么是奇异值分解。用一个大矩阵描述文章和词的关联性,每一行对应一篇文章,每一列对应一个词。第i行第j列的元素Aij是字典中第j个词在第i篇文章中出现的加权词频。把这个矩阵分解成三个小矩阵相乘。第一个小矩阵X是对词进行分类的一个结果。它的每一行表示一个词,每一列表示一个语义相近的词类或者简称为语义类。这一行的每个非零元素表示这个词在每个语义类中的重要性(相关性),数值越大越相关。最后一个矩阵Y是对文本分类的结果。每一列对应一个文本,每一行对应一个主题。这一列中的每个元素表示这篇文本在不同主题中的相关性。如果每一列只保留最大值,其余全改为零,那么每一篇文本只归入一类主题中。中间的矩阵表示词的类和文章的类之间的相关性,即词的语义和主题之间的相关性。最后谈了如何用计算机进行奇异值的分解。计算量不大时可用MATLAB即可,大的计算量可考虑并行计算。

       最后是延伸阅读:奇异值分解的方法和应用场景。奇异值分解的方法适合处理超大规模文本的粗分类。在实际应用中,可以先进行奇异值分解,得到粗分类结果,再利用计算向量余弦的方法,在粗分类结果的基础上,进行几次迭代,得到比较精确的结果。

1
0

猜你在找
【直播】机器学习&数据挖掘7周实训--韦玮
【套餐】系统集成项目管理工程师顺利通关--徐朋
【直播】3小时掌握Docker最佳实战-徐西宁
【套餐】机器学习系列套餐(算法+实战)--唐宇迪
【直播】计算机视觉原理及实战--屈教授
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之矩阵--黄博士
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之凸优化--马博士
【套餐】Javascript 设计模式实战--曾亮
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:23040次
    • 积分:539
    • 等级:
    • 排名:千里之外
    • 原创:30篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章分类