“数学之美”

1.平滑处理,给未出现的事件留一点概率

2.第5章,隐含马尔科夫模型、机器学习

-- 鲍姆-韦尔奇算法

-- 维特比算法

3.一个问题可以有不同的角度,事物往往有着朴素的内在联系和归属关系。

4.第6章,关于信息论的阐述是我至今看过最生动的

5.技术分为术和道两种,追求术的人一辈子工作很辛苦,只有掌握了搜索的本质和精髓才能永远游刃有余。

6.发现问题的根本,然后解决起来往往能事半功倍

7.第8到11章对搜索引擎原理做了较浅显的介绍和总结,《信息检索导论》中比较详细。

-- 下载->索引->排序,即 爬网页->建立倒排表->查询反馈(网页质量*相关性)

--如何构建一个网络爬虫:a)调度程序BFS多于DFS,但要考虑握手成本,b)URL的提取,javascript脚本生成,不规范脚本程序,c)URL表的维护,分布式+分工+批处理

--PageRank,入链+权重,收敛的过程

8.第12章,地址分析->有限状态机,地图搜索->动态规划。

9.第13章,.“辛格这种做事情的哲学,即先帮助用户解决80%的问题,再慢慢解决剩下的20%问题,是在工业界成功的秘诀之一。许多失败并不是因为人不优秀,而是做事情的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。”,“美国人总是倾向于用机器(计算机)代替人工来完成任务,虽然在短期需要做一些额外的工作,但是从长远看可以节省很多时间和成本。”

10.第14章,利用余弦定理对文档进行分类和聚类。

11.第15章,关联矩阵的奇异值分解,A=XBY,A是文档和词项的关联矩阵,X是对词分类的结果,Y是对文档分类的结果,B是词的类和文章的类之间的相关性。(这一章作者讲的讲的貌似有点问题)。2007年张智威博士实现了奇异值分解的并行算法。

12.第16章,介绍信息指纹在海量数据处理中的用途。a)网页消重,b)网页客户端的cookie认证,c)判定集合相同(忽略工程上的误差),d)判定集合基本相同(拿出一部分进行判断,如垃圾邮件中的尾数相同、网页内容重复判断中IDF最大的几个词等等),e)youtube反盗版技术,关键帧提取->信息指纹。产生信息指纹的关键算法:伪随机数产生器算法,如梅森旋转算法、MD5、SHA-1等。 网页内容去重判断中,google采用具有一定容错能力的相似哈希(Simhash):两步操作,扩展->收缩。

13.第18章,反作弊技术,a)计算出链的余弦相似度(增强算法的抗噪声能力),c)图论,发现团(Clique),d)钓鱼网站,解析javascript内容。

14.第20章,最大熵模型。保留全部的不确定性,将风险降到最小,即预测时应满足全部已知的条件,对未知的情况不要做任何主观假设。计算复杂。

15.第21章,拼音输入,香农定理,语言模型(基于规则不可取)->隐含马尔科夫模型->动态规划,个性化语言模型(预先建好分类,进行匹配)+线性插值模型。

16.第23章,布隆过滤器,只需要哈希表1/8到1/4的大小,例如:1亿个邮件地址,16亿二进制bit位,8个不同的随机数产生器F产生8个信息指纹,8个随机数产生器G将指纹映射到1-16亿之间的8个自然数,再把这8个数对应的比特位置1。布隆过滤器不会漏掉任何一个可疑地址,但有可能产生误判。

17.第24章,贝叶斯网络(多维的一阶马尔科夫),词、概念、文档,其训练是一个NP-Complete问题:可以贪婪、蒙特卡洛、保留互信息较大的节点。





  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值