“数学之美”

最新推荐文章于 2022-09-12 09:57:08 发布

谷堆间的驴子

最新推荐文章于 2022-09-12 09:57:08 发布

阅读量1.1k

点赞数

分类专栏： Notes for Bks 文章标签：算法

本文链接：https://blog.csdn.net/woshishuizzz/article/details/8041627

版权

Notes for Bks 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

1.平滑处理，给未出现的事件留一点概率

2.第5章，隐含马尔科夫模型、机器学习

-- 鲍姆-韦尔奇算法

-- 维特比算法

3.一个问题可以有不同的角度，事物往往有着朴素的内在联系和归属关系。

4.第6章，关于信息论的阐述是我至今看过最生动的

5.技术分为术和道两种，追求术的人一辈子工作很辛苦，只有掌握了搜索的本质和精髓才能永远游刃有余。

6.发现问题的根本，然后解决起来往往能事半功倍

7.第8到11章对搜索引擎原理做了较浅显的介绍和总结，《信息检索导论》中比较详细。

-- 下载->索引->排序，即爬网页->建立倒排表->查询反馈（网页质量*相关性）

--如何构建一个网络爬虫：a)调度程序BFS多于DFS，但要考虑握手成本，b)URL的提取，javascript脚本生成，不规范脚本程序，c)URL表的维护，分布式+分工+批处理

--PageRank，入链+权重，收敛的过程

8.第12章，地址分析->有限状态机，地图搜索->动态规划。

9.第13章，.“辛格这种做事情的哲学，即先帮助用户解决80%的问题，再慢慢解决剩下的20%问题，是在工业界成功的秘诀之一。许多失败并不是因为人不优秀，而是做事情的方法不对，一开始追求大而全的解决方案，之后长时间不能完成，最后不了了之。”，“美国人总是倾向于用机器（计算机）代替人工来完成任务，虽然在短期需要做一些额外的工作，但是从长远看可以节省很多时间和成本。”

10.第14章，利用余弦定理对文档进行分类和聚类。

11.第15章，关联矩阵的奇异值分解，A=XBY，A是文档和词项的关联矩阵，X是对词分类的结果，Y是对文档分类的结果，B是词的类和文章的类之间的相关性。（这一章作者讲的讲的貌似有点问题）。2007年张智威博士实现了奇异值分解的并行算法。

12.第16章，介绍信息指纹在海量数据处理中的用途。a)网页消重，b)网页客户端的cookie认证，c)判定集合相同（忽略工程上的误差），d)判定集合基本相同（拿出一部分进行判断，如垃圾邮件中的尾数相同、网页内容重复判断中IDF最大的几个词等等），e)youtube反盗版技术，关键帧提取->信息指纹。产生信息指纹的关键算法：伪随机数产生器算法，如梅森旋转算法、MD5、SHA-1等。网页内容去重判断中，google采用具有一定容错能力的相似哈希（Simhash）：两步操作，扩展->收缩。

13.第18章，反作弊技术，a)计算出链的余弦相似度（增强算法的抗噪声能力），c)图论，发现团（Clique），d)钓鱼网站，解析javascript内容。

14.第20章，最大熵模型。保留全部的不确定性，将风险降到最小，即预测时应满足全部已知的条件，对未知的情况不要做任何主观假设。计算复杂。

15.第21章，拼音输入，香农定理，语言模型（基于规则不可取）->隐含马尔科夫模型->动态规划，个性化语言模型（预先建好分类，进行匹配）+线性插值模型。

16.第23章，布隆过滤器，只需要哈希表1/8到1/4的大小，例如：1亿个邮件地址，16亿二进制bit位，8个不同的随机数产生器F产生8个信息指纹，8个随机数产生器G将指纹映射到1-16亿之间的8个自然数，再把这8个数对应的比特位置1。布隆过滤器不会漏掉任何一个可疑地址，但有可能产生误判。

17.第24章，贝叶斯网络（多维的一阶马尔科夫），词、概念、文档，其训练是一个NP-Complete问题：可以贪婪、蒙特卡洛、保留互信息较大的节点。

谷堆间的驴子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
“数学之美”

1.平滑处理，给未出现的事件留一点概率2.第5章，隐含马尔科夫模型、机器学习-- 鲍姆-韦尔奇算法-- 维特比算法3.一个问题可以有不同的角度，事物往往有着朴素的内在联系和归属关系。4.第6章，关于信息论的阐述是我至今看过最生动的5.技术分为术和道两种，追求术的人一辈子工作很辛苦，只有掌握了搜索的本质和精髓才能永远游刃有余。6.发现问题的根本，然后解决起来往往能
复制链接

扫一扫