- 博客(3)
- 收藏
- 关注
原创 【总结】Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件: 1、输入的数据来自可靠的数据源和可靠的接收器; 2、应用程序的metadata被application的driver持久化了(checkpointed ); 3、启用了WAL特性(Write ahead lo
2017-09-13 17:11:42 910
原创 【实践】CTR预估中的贝叶斯平滑方法(二)
1. 前言这篇博客主要是介绍如何对贝叶斯平滑的参数进行估计,以及具体的代码实现。首先,我们回顾一下前文中介绍的似然函数,也就是我们需要进行最大化的目标函数:下面我们就基于这个目标函数介绍怎样估计参数。 2. 参数估计的几种方法1. 矩估计矩估计在这里有点乱入的意思:),因为它其实不是用来最大化似然函数的,而是直接进行参数的近似估计。矩估计的方法要追溯到19世纪的
2017-09-13 14:34:20 12365
原创 【算法】CTR预估中的贝叶斯平滑方法(一)
1. 背景介绍广告形式:互联网广告可以分为以下三种:1)展示广告(display ad)2)搜索广告(sponsored search ad)3)上下文广告(contextual ad) 竞价模式:对于在线广告,主要有以下几种竞价模式:1)pay-per-impression(按展示付费):广告商按照广告被展示的次数付费,这是一种最普遍的竞价模型。缺点在于没有考
2017-09-13 14:30:53 9482
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人