本文笔记来源于刘鹏、王超的《计算广告》第二版第十章
目录
10.1.2向量空间模型(vector space model,VSM)
重点是3个领域:信息检索(Information Retrieval, IR),最优化(optimization),机器学习(Machine Learning,ML)
10.1信息检索
主要介绍倒排索引和向量空间模型。
10.1.1 倒排索引(inverted index)
核心目标:其核心目的是将从大量文档中查找包含某些词的文档集合这一任务,用O(1)或O(log n)的时间复杂度完成,其中n为索引中的文档数目。该技术可以实现与文档集大小无关的检索复杂度。
基本概念:机构类似于哈希图(hash map),键为关键词;值为倒排链,是一个由索引条目组成的链表。
10.1.2向量空间模型(vector space model,VSM)
向量空间模型是最重要的文档相似度度量方法,核心在于文档的表示方法和相似度计算方法。
- 文档表示方法:词袋(bag of word),各个关键词在文档中的强度组成的矢量来表示该文档,强度一般用TF-IDF表示
- 相似度:矢量的余弦距离
10.2最优化方法
最优化问题讨论的是,给定某个确定的目标函数(objective function),以及该函数自变量的一些约束条件,求解该函数的最大或最小值的问题。
优化方法
1)拉格朗日法与凸优化
2)下降单纯法
3)梯度下降法
4)拟牛顿法
10.3 统计机器学习
10.3.1 最大熵与指数族分布
10.3.2 混合模型和EM算法
10.3.3 贝叶斯学习
10.4 统计模型分布式优化框架
机器学习的计算,可以跑在MapReduce上;采用Spark的计算框架会更高效
10.5 深度学习
1)深度神经网络优化方法
2)卷积神经网络CNN
3)递归神经网络 RNN
4)生成对抗网络GAN