深度学习
文章平均质量分 60
NorthFish北海有鱼
simple notebook.想去硅谷写代码
展开
-
word2vector-粘贴自我的知乎
对于常规句子来说,不是窗口越大越好,因为窗口太大的话,句子之间就没有前后依赖关系了。但是对于特定场景,比如用户偏好,每个用户的item之间存在强依赖关系,这种情况下,窗口越大越好。经过验证,窗口越大,训练速度越慢。3.mincount,取词的最小值。1.训练语料大小,最好在上千万样本。原创 2024-06-23 00:49:18 · 113 阅读 · 0 评论 -
Attention系列总结-粘贴自知乎
梦想做个翟老师:阿里:Behavior Sequence Transformer 解读48 赞同 · 7 评论文章。优点:捕捉用户行为历史序列中的顺序信息。w2v也是捕捉用户序列信息的,本质差异在于啥?添加图片注释,不超过 140 字(可选)原创 2024-06-23 00:27:05 · 173 阅读 · 0 评论 -
cnn和lstm
cnn和lstm原理原创 2020-11-11 11:39:35 · 2100 阅读 · 1 评论 -
关于模型的一些八股文
跷跷板现象参数硬共享和软共享mmoe的优点缺点ple的优点缺点xdeepfm原创 2021-05-12 14:37:34 · 257 阅读 · 1 评论 -
多任务/多场景学习技术分享
Grad Normhttps://mp.weixin.qq.com/s/RIxxtMqdb6yJKLorg_WjrAhttps://www.cnblogs.com/douzujun/p/14633524.html多任务学习的多个权重改如何调节梯度修剪原创 2021-04-27 20:11:44 · 1026 阅读 · 0 评论 -
排序算法学习
transformerESMMMMOE原创 2021-02-16 17:50:03 · 198 阅读 · 2 评论 -
din的理论
din是把nlp里面的注意力机制引入了推荐模型里面,就是模型表达的时候,对用户不同行为的注意力是不一样的,“相关”的行为历史看重一些,“不相关”的历史甚至可以忽略。实际上就是把用户兴趣序列和当前物品做一个加权,使得用户更感兴趣的物品权重大一些。具体实现的时候是......原创 2020-11-17 19:53:47 · 408 阅读 · 0 评论 -
常见ctr排序模型
deepfmfm的复杂度https://zhuanlan.zhihu.com/p/145436595demo实现我的git上FM_models/deepfm_学习.ipynbxdeepfm原创 2020-09-28 16:37:23 · 469 阅读 · 4 评论 -
常用api网址
1.tensorflowtensorflow.orghttps://www.tensorflow.org/api_docs/python/tf/keras/layers/Dropout?hl=zh-cn2.kerashttps://keras.io/guides/原创 2020-07-21 14:11:58 · 1454 阅读 · 0 评论 -
深度学习理论相关
https://zhuanlan.zhihu.com/p/35062508https://zhuanlan.zhihu.com/p/250058081.梯度消失和梯度爆炸根源是神经网络的天然属性决定的:反向传播,链式求导。https://blog.csdn.net/qq_25737169/article/details/788476912.BNbn本质上是为了解决梯度消失和...原创 2020-05-08 10:22:09 · 262 阅读 · 11 评论