统计语言模型:
马尔可夫链,模型训练,零概率平滑
隐马尔可夫链:
概率训练,鲍姆-韦尔奇算法
信息度量和作用:
信息熵,互信息,联合概率分布、相对熵
简单之美-布尔袋鼠和搜索引擎的索引:
文献搜索
图论和网络爬虫:
最短路径,网络爬虫,哈希表,工程要点(DFS,BFS,页面分析和URL提取,URL表)
PageRank-Google的民主表决式网页排名技术:
布林
如何确定网页和查询的相关性:
下载-索引-质量-相关性,关键词权重TF—IDF
地图和本地搜索的最基本技术-有限状态机和动态规划:
地址分析,全球导航
余弦定理和新闻分类:
新闻的特征向量,向量距离的度量,计算余弦向量的技巧
矩阵运算和文本分类处理中的两个问题:
奇异值分解
信息指纹及其应用:
梅森旋转算法,判定集合相同或基本相同
由电视剧《暗算》所想到的-谈谈密码学的数学原理:
信息论
闪光的不一定是金子-谈谈搜索引引擎反作弊问题:
解卷积,图论
不要把鸡蛋放到一个篮子里-谈谈最大熵问题:
将不同信息整合到统一的模型中
拼音输入法的数学原理:
编码,敲击键数,通信问题
布隆过滤器:
判断一个元素是否在集合中,速度快,但是有一定的误识别率
马尔可夫链的扩展:贝叶斯网络
分类
条件随机场与句法分析:
计算联合分布概率
维比特和他的维比特算法:
篱笆网络有向图最短路径,动态规划算法,(数字通信,语音识别,机器翻译,拼音转汉字,分词),CDMA技术
再谈文本自动分类问题-期望最大算法:
上帝算法,文本自分类算法
逻辑回归和搜索广告:
将影响概率的不同因素结合在一起的指数模型
各个击破算法和Google云计算的基础:
分治理算法到MapReduce