Chapter.11如何确定网页和查询内容的相关性
1. TF-IDF法,利用逆文本频率指数(关键词在总文本中的比例的对数)加权的特定网页关键词词频度量关键词在此特定网页中的相关性
步骤:提取出网页的关键词,然后根据网页的长度对关键词进行归一化。
两个网站间的相似性 = ∑(关键词 * 词频 * 权重)
关键词:如“原子能”,“的”
词频:在进行对比的两个网页中,关键词出现的频率。
权重:关键词在所有网页中出现的概率越低,权重越大。很显然,“原子能”的权重远远大于“的”的权重。
2. TF-IDF和信息论有密切的关系,可以用信息论进行证明
Chapter.12地图和本地搜索(用移动客户观进行的当地搜索)的最基本技术-----有限状态机和动态规划
1.关键技术:卫星定位;地址识别;路径规划
2.有限状态机是一个特殊的有向图,包括一些状态节点和连接这些节点的有向弧(每一条弧上带有状态1到状态2所需的条件),用于地址识别的上下文分析
3.模糊匹配问题的解决总是依靠马尔科夫链
问题描述:输入一串文字,输出该文字对应的准确地址
解决方法:有限状态机
有限状态机方法先为地址建立起有限个状态(市、省、街),然后从第一个状态开始,走到最后一个状态,把经过的状态连接起来,形成有效地址。从一个状态走到下一个状态是有严格条件的。
问题:当遇到错别字,或者地址描述不清时,会在某个状态停止不前,无法进行匹配。
解决方法:基于概率的加权有限状态机,对地址模糊匹配。
3. 动态规划:分段分步求解局部最小路径从而达到全程最小路径
问题描述:求出地图上任意两点间的最短距离。
解决方法:
1. 遍历查找:时间复杂度呈指数增长,无法实现
2. 动态规划:在起点A和终点B之间划一条分隔线,假设路程必然会经过线上某一点X,这样的点X的数量是有限个,不妨记为(x1,x2…xn)。将求解全程最短路线化解为求解Min( D(A,xi) + D(xi,B)),其中D表示距离
5.加权的有限状态传感器WFST,其每一个状态由输入和输出符号定义,根据输入和输出可能性的不同赋以权重。WFST中的每一条路径就是一个候选的句子,其中概率最大的那条路径就是句子的识别结果。
Chapter.13阿米特.辛格博士
1. 先帮助用户解决80%的问题,再慢慢解决剩下的20%问题,是在工业界成功的秘诀之一。简单方案容易解释每一个步骤和方法背后的道理,这样不仅便于除了问题debug,而且容易找到今后改进的目标。
2. 简单哲学,要找到简单有效的方法,靠的是丰富的研究经验,坚持每天分析不好的结果,发现原因。
Chapter.14新闻搜索和余弦定理
1.新闻分类原理:先把文字的新闻变成可以计算的一组数字(将新闻转化成成每个词的TF-IDF值的向量),然后再设计一个算法算出任意两篇新闻的相似性
2.向量方向越一致则新闻之间的用此比例越相似,因此余弦定理在新闻搜索中起到了巨大的作用
应用:新闻分类,广告投放
3、大量数据的余弦距离:首先分母不用重复计算,可以预先存储;其次,在计算相似度时,只计算非零元素即可;第三,删除虚词,不仅可提高计算速度,对新闻分类的准确性也大有好处。
4、进行位置加权,出现在文本不同位置的词在分类时的重要性也不相同。
Chapter.15 矩阵运算和文本处理中的两个分类问题
1.文本处理的两个分类问题:将文本按主题归类,将词汇表中的字词按意思归类
2.酉矩阵:它和它的共轭矩阵转置相乘等于单位阵
3.矩阵的奇异值分解:Amn=Xmm*Bmn*Ynn,其中X,Y为酉矩阵,B为对角阵
4.奇异值分解分类法相对于余弦定理计算次数大幅降低---计算速度大大加快,但需要一个更大的存储量,且分类结果略显粗糙
问题描述:当有海量数据,需要计算它们两两之间的距离时,计算量巨大,耗时太多。
解决方法:矩阵的奇异值分解方法。
奇异值分解方法是把一个大矩阵分解成3个小矩阵的乘积,每个矩阵都有明确的物理含义。分解之后,存储量和计算量提高了3个数量级。
Google提出了奇异值分解的并行算法,极大的提高了算法效率。