《计算广告》笔记2_基础知识准备

本文笔记来源于刘鹏、王超的《计算广告》第二版第十章

目录

10.1信息检索

10.1.1 倒排索引(inverted index)

10.1.2向量空间模型(vector space model,VSM)

10.2最优化方法

10.3 统计机器学习

10.4 统计模型分布式优化框架

10.5 深度学习


重点是3个领域:信息检索(Information Retrieval, IR),最优化(optimization),机器学习(Machine Learning,ML)

10.1信息检索

主要介绍倒排索引和向量空间模型。

10.1.1 倒排索引(inverted index)

核心目标:其核心目的是将从大量文档中查找包含某些词的文档集合这一任务,用O(1)或O(log n)的时间复杂度完成,其中n为索引中的文档数目。该技术可以实现与文档集大小无关的检索复杂度。

基本概念:机构类似于哈希图(hash map),键为关键词;值为倒排链,是一个由索引条目组成的链表。

10.1.2向量空间模型(vector space model,VSM)

向量空间模型是最重要的文档相似度度量方法,核心在于文档的表示方法和相似度计算方法。

  • 文档表示方法:词袋(bag of word),各个关键词在文档中的强度组成的矢量来表示该文档,强度一般用TF-IDF表示
  • 相似度:矢量的余弦距离

10.2最优化方法

最优化问题讨论的是,给定某个确定的目标函数(objective function),以及该函数自变量的一些约束条件,求解该函数的最大或最小值的问题。

 

优化方法

1)拉格朗日法与凸优化

2)下降单纯法

3)梯度下降法

4)拟牛顿法

10.3 统计机器学习

10.3.1 最大熵与指数族分布

10.3.2 混合模型和EM算法

10.3.3 贝叶斯学习

10.4 统计模型分布式优化框架

机器学习的计算,可以跑在MapReduce上;采用Spark的计算框架会更高效

10.5 深度学习

1)深度神经网络优化方法

2)卷积神经网络CNN

3)递归神经网络 RNN

4)生成对抗网络GAN

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值