用python写bbt公式_用python实现简单的pctr模型

前言

仅记录自己对pctr的理解

使用Python实现一个最简单的神经网络,解决一个点击率预估的问题。

场景

耐克,阿迪同时在微信公众号上投放广告,我们需要给这两个广告做出预估点击率排序

耐克

阿迪达斯

简单介绍下业务:

最终决定选哪个广告的公式:eCPM=pCTR x bid

bid 是出价的意思,假设他们bid 相同,则就看谁的pCTR 大,谁胜出。

公众号特征:文中广告,底部广告

用户特征:用户id,性能,年龄等

为了简单,假设两家广告都是在底部广告位,同一个用户下竞争。

广告特征:这里假设是

X={x1="有文字说明",x2="有场景",x3="有美女"}

任务分析

这是一个有监督的机器学习任务,我们想简单的预测广告最有可能被点击的概率,对广告来说是一个二分类问题:被点击,或者不被点击。

所以,我们需要搭建一个点击率预测模型,这也就决定我们需要构建一个有监督学习的训练数据集。

这里选择最简单前馈神经网络为例,这种类型的人工神经网络是直接从前到后传递数据的,简称前向传播过程。

数据预处理

源数据一般不能直接使用,会有确实,异常,冗余,重复等问题,

一般要经过数据清洗,数据转换,数据描述,特征筛选或组合,特征抽取,one-hot编码等等步骤处理,转化为机器学习算法能够利用的形式。

这里假设最终的数据经过数值化编码,最终格式为:

训练数据XY

取第一样本X0=[0 0 1],表示对应的三个特征,Y0=[0],表示这个样本是否被点击。翻译一下:这个样本[没有文字,没有场景,有美女],没有被点击

选择模型

这里选用神经网络,神经网络基本结构有:输入层,隐藏层,激活函数,输出层。

激活函数

通过引入激活函数,实现非线性变换。

这里选用sigmoid 函数实例

公式:

sigmoid函数图像:

sigmoid函数的导数形式:

训练模型

现在X确定,Y确定,模型也选好,训练模型就是求解模型中的权重W

训练的三个核心流程:前向计算、损失函数、反向计算

权重的更新公式:

推导过程在上一篇 LR逻辑回归 里

模型预估

X确定,Y确定,参数也确定后,将两广告的预测数据输入模型,即可得到广告被点击的预估结果: 耐克 = [0.9999], 阿迪 = [0.0008],可以认为耐克广告有极大的可能被点击。

代码实现

# coding:utf-8

import numpy as np

class NeuralNetwork():

def __init__(self):

np.random.seed(1)

self.synaptic_weights = 2 * np.random.random((3, 1)) - 1

def sigmoid(self, x):

return 1 / (1 + np.exp(-x))

def sigmoid_derivative(self, x):

return x * (1 - x)

def train(self, training_inputs, training_outputs,learn_rate, training_iterations):

for iteration in range(training_iterations):

output = self.think(training_inputs)

error = training_outputs - output

adjustments = np.dot(training_inputs.T, error)

self.synaptic_weights += learn_rate*adjustments

def think(self, inputs):

inputs = inputs.astype(float)

output = self.sigmoid(np.dot(inputs, self.synaptic_weights))

return output

if __name__ == "__main__":

# 初始化前馈神经网络类

neural_network = NeuralNetwork()

print "随机初始化的权重矩阵W"

print neural_network.synaptic_weights

train_data=[[0,0,1], [1,1,1], [1,0,1], [0,1,1]]

training_inputs = np.array(train_data)

training_outputs = np.array([[0,1,1,0]]).T

# 参数学习率

learn_rate=0.1

# 模型迭代的次数

epoch=15000

neural_network.train(training_inputs, training_outputs, learn_rate, epoch)

print "迭代计算之后权重矩阵W: "

print neural_network.synaptic_weights

# 模拟需要预测的数据X

naike_data=[1,0,0]

adi_data=[0,1,1]

# 使用训练的模型预测广告被点击的概率

print "naike 被点击的概率:"

print neural_network.think(np.array(naike_data))

print "adi 被点击的概率:"

print neural_network.think(np.array(adi_data))

总结

最终这个模型,可以根据输入特征输出预测结果。

例子里的特征非常简单,LR也没有考虑特征间的关系,所以仅用来学习理解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值