ml
文章平均质量分 61
lloyd_chou
这个作者很懒,什么都没留下…
展开
-
VAE新解(下)
1,框架构建还记得上篇提到的隐含变量Z吗?这个Z就是决定最终x形态的隐含变量。给定一个图片Xk,我们假定p(Z|Xk)是专属于Xk的后验概率分布,这个概率分布服从正态分布。得到了这个概率,我们可以从分布中采样,并且通过最终的解码器将图片再恢复出来。可以看到encoder部分做的事情就是,对相应的输入数据,通过网络(两个dense层)产生了均值和方差。为了使模型具有生成能力,VAE 要求每个 p(Z) 都向正态分布看齐。2,重参数技巧在实际应用过程中,z的值是一个随机变量,反向传播中,我们没有办原创 2022-04-22 13:52:25 · 342 阅读 · 0 评论 -
VAE新解(上)
vae初识vae,全称variational auto encoding。假设我们用一堆特征如,smile,beard,gender,glass等刻画一张人脸。我们把这些特征one-hot后,送入网络学习。最终得到这些参数特征。而我们vae最终学习的就是这些隐含的参数特征。当然这是假定人类头像服从高斯分布。事实上也是如此。人以类聚,物以群分。相同的事物存在一定的分布特征,这也是大自然的奇妙之处!VAE和GAN假如我们只有一堆样本,没有上面所说的一系列特征,怎么办。我们无法找到相应分布,无法计算k原创 2022-04-22 13:19:28 · 616 阅读 · 0 评论 -
如何去除填充对模型的影响
1、mask*负无穷大数,softmax归一化后等于0def scaled_dot_product_attention(q, k, v, mask): """计算注意力权重。 q, k, v 必须具有匹配的前置维度。 k, v 必须有匹配的倒数第二个维度,例如:seq_len_k = seq_len_v。 虽然 mask 根据其类型(填充或前瞻)有不同的形状, 但是 mask 必须能进行广播转换以便求和。 参数: q: 请求的形状 == (..., seq_len_q,原创 2021-10-20 17:23:19 · 164 阅读 · 0 评论 -
交叉商Cross-Entroy
交叉熵描述了两个概率分布之间的距离,当交叉熵越小说明二者之间越接近。尽管交叉熵刻画的是两个概率分布之间的距离,但是神经网络的输出却不一定是一个概率分布。为此我们常常用Softmax回归将神经网络前向传播得到的结果变成概率分布。softmax常用于多分类过程中,它将多个神经元的输出,归一化到( 0, 1) 区间内,因此Softmax的输出可以看成概率,从而来进行多分类。假设我们有一个包含k个元素的数组V,i表示V中的第i个元素,那么这i个元素的softmax输出就是:简单复习了Softmax,开始进入原创 2021-10-11 17:48:04 · 252 阅读 · 0 评论 -
sparse_softmax_cross_entropy_with_logits详解
函数:tf.nn.sparse_softmax_cross_entropy_with_logits(logits=x, labels=y)作用:计算logits和labels之间的稀疏softmax交叉熵,该函数为常用函数。函数:tf.nn.softmax_cross_entropy_with_logits(logits=x, labels=y)作用:计算logits和labels之间的softmax交叉熵,该函数为不常用函数区别:softmax_cross_entropy_with_logits原创 2021-10-11 10:47:15 · 1919 阅读 · 0 评论 -
空洞卷积詳解
空洞卷积Dilated/Atrous Convolution(中文叫做空洞卷积或者膨胀卷积) 或者是 Convolution with holes 从字面上就很好理解,是在标准的 convolution map 里注入空洞,以此来增加 reception field。相比原来的正常convolution,dilated convolution 多了一个 hyper-parameter 称之为 dilation rate 指的是kernel的间隔数量(e.g. 正常的 convolution 是 dilat原创 2021-08-01 20:27:31 · 847 阅读 · 0 评论 -
快手推荐精排模型的发展史
1、参数个性化 CTR 模型 - PPNet 2019 年之前,快手 App 主要以双列的瀑布流玩法为主,用户同视频的交互与点击,观看双阶段来区分。在这种形式下, CTR 预估模型变得尤为关键,因为它将直接决定用户是否愿意点击展示给他们的视频。彼时业界主流的推荐模型还是以 DNN、DeepFM 等简单的全连接深度学习模型为主。但考虑到某用户个体和视频的共建语义模式在全局用户的共建语义模式基础上会有个性化的偏差,如何在 DNN 网络参数上为不同用户学习一个独有的个性化偏差成为了快手推荐团队优化的方向。在.原创 2021-07-29 12:39:14 · 2311 阅读 · 0 评论 -
tensorflow Serving架构详解和代码示例
1、参数个性化 CTR 模型 - PPNet 2019 年之前,快手 App 主要以双列的瀑布流玩法为主,用户同视频的交互与点击,观看双阶段来区分。在这种形式下, CTR 预估模型变得尤为关键,因为它将直接决定用户是否愿意点击展示给他们的视频。彼时业界主流的推荐模型还是以 DNN、DeepFM 等简单的全连接深度学习模型为主。但考虑到某用户个体和视频的共建语义模式在全局用户的共建语义模式基础上会有个性化的偏差,如何在 DNN 网络参数上为不同用户学习一个独有的个性化偏差成为了快手推荐团队优化的方向。在.原创 2021-07-26 19:24:54 · 1273 阅读 · 0 评论 -
yolo3的损失函数
xy_loss = object_mask * box_loss_scale * K.binary_crossentropy(raw_true_xy, raw_pred[...,0:2], from_logits=True)wh_loss = object_mask * box_loss_scale * 0.5 * K.square(raw_true_wh-raw_pred[...,2:4])confidence_loss = object_mask * K.binary_crossentropy(o.原创 2021-07-26 18:37:16 · 375 阅读 · 0 评论 -
glove词向量
词向量的表示可以分成两个大类1:基于统计方法例如共现矩阵、奇异值分解SVD;2:基于语言模型例如神经网络语言模型(NNLM)、word2vector(CBOW、skip-gram)、GloVe、ELMo。 word2vector中的skip-gram模型是利用类似于自动编码的器网络以中心词的one-hot表示作为输入来预测这个中心词环境中某一个词的one-hot表示,即先将中心词one-hot表示编码然后解码成环境中某个词的one-hot表示(多分类模型,损失函数用交叉熵)。CBOW是反过来的,分别用环原创 2021-07-26 18:05:26 · 220 阅读 · 0 评论 -
推荐系统-FM详解
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。 相关链接: (一)预测任务 (二)模型方程 (三)回归和分类 (四)学习算法 ...原创 2021-06-06 20:46:00 · 503 阅读 · 0 评论 -
大数据中间件kafka的设计哲学
1,kafka是基于多分区多副本的分布式消息系统。一个topic对应多个partition,每个partition又由一个一个消息组成。每个消息都被标识了一个递增序列号代表其进来的先后顺序,并按顺序存储在partition中。这样,消息就以一个个id的方式,组织起来。producer选择一个topic,生产消息,消息会通过分配策略append到某个partition末尾。consume...原创 2019-07-08 18:53:24 · 209 阅读 · 0 评论