caizd2009-CSDN博客

原创推荐系统与Attention机制——详解Attention机制

什么是Attention机制？Attention机制的本质来自于人类视觉注意力机制。人们在看东西的时候一般不会从到头看到尾全部都看，往往只会根据需求观察注意特定的一部分。简单来说，就是一种权重参数的分配机制，目标是协助模型捕捉重要信息。具体一点就是，给定一组<key,value>，以及一个目标（查询）向量query，attention机制就是通过计算query与每一组key的相...

2019-02-25 16:51:40 7190 1

原创 Adam等机器学习深度学习主流优化算法简析

什么是优化算法？简单来说就是一种通过迭代逼近最优解的方法，即最优解的渐近估计方法。深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 这样的发展历程，目前Adam应该是最常用的优化算法。为什么需要优化算法？1.有的问题并没有解析解，只能迭代求得近似解2.问...

2019-08-05 00:01:10 1087

原创机器学习深度学习必备之——正则化综述

什么是正则化？首先英文原文为regularization，直译应为规则化，简单来说就是对模型加入规则，加入我们的先验知识，如果觉得正则化太难理解，可以按照规则化来理解记忆。切入正题，正则化说的就是对模型引入额外信息来防止模型过拟合与提高模型泛化性能的方法统称。一般是对模型复杂程度加以惩罚，目标是降低模型的复杂度（模型的结构化风险），根据奥卡姆剃刀原理，精度靠谱的情况下越简单的模型是越值得选...

2019-07-29 00:33:52 574

原创机器学习常用评估指标AUC简析——看懂AUC一文就够了

什么是AUC？AUC的定义是ROC曲线下的面积，实际意义为模型打分时将正例分数排在反例前面的概率。ROC曲线一般都会处于0.5-1之间，所以auc一般是不会低于0.5的，0.5为随机预测的auc。什么是ROC曲线？ROC中文名为：受试者操作特征（receiver operating characteristic curve）,源于二战雷达信号分析技术。ROC曲线绘制：分别计算模型结...

2019-07-25 13:18:13 15214 3

原创 Batch Normalization简析

什么是Batch Normalization?批量标准化(BN）指的是对神经网络每一层的输入进行标准化，目的是为了解决训练过程中输入数据分布漂移——Internal Covariate Shift。什么是Internal Covariate Shift?首先机器学习算法都有一个前提假设：数据是独立同分布的。简单来说就是输入空间内的所有变量都服从某一个隐含分布，而模型则是去学习这个分布。...

2019-06-24 21:26:53 311

原创智能推荐系统新用户冷启动—EE问题及Bandit算法！

前言几乎在所有信息消费类的应用场景中，对于外部画像缺失的新用户，如何承接都是一个棘手但又十分关键的问题。承接的好，理所当然就能提升留存率，离人生巅峰就更进一步了，嘿嘿！算法适用场景：新用户冷启动用户兴趣探索 (请各位补充）如何定义新用户（冷启动用户）？在这抛砖引玉，说三点简单的方法。综合曝光，点击数等行为。基于用户画像。综合各种信息。Exploration a...

2019-02-26 09:20:07 2189

原创频繁项集与关联规则挖掘

刚刚做完一个关联分析的工作，现在趁着跑代码的时间总结一下吧。现在其实这两都用的非常少了关联分析：目的用于发现数据中可能隐含的有意义的联系。联系则可以通过频繁项集与关联规则来表示。比如：若存在这样的关联规则：{尿布}—>{啤酒}，则说明尿布与啤酒之间存在很强的联系。那么这种规则建立的规则是什么？最基本的首先要该组合出现的次数足够多，若数据仅仅是在10次里出现5次，显然缺乏说服力。那...

2018-06-28 17:25:10 5341

PCA原理：将n维数据映射到由K维相互正交的向量确定的空间上。实现流程:1.计算原特征数据的协方差矩阵，并计算协方差矩阵的特征值。2.按照大小对所计算的特征值进行排序，选取前K大的特征值所对应的特征向量，将其转化为单位向量。3.对所有数据都减去其对应的平均值，做中心化。这相当于得到期望值为0，标准差为1的标准高斯分布（个人认为中心化的目的是为了计算方差方便，和让样本平移到坐标原点让模型更易理解）。...

2018-03-13 20:22:36 226

原创隐马尔可夫模型学习总结

1.隐马尔可夫模型简述：隐马尔可夫模型是用于标注问题的一种生成模型，是一种关于时序的概率模型。通过由单个观测生成不可观测的状态【即为输入序列进行标注】，然后由得出的这些不可观测状态生成状态序列。马尔可夫由初始概率分布，状态转移概率分布，观测概率分布三者共同决定。马尔可夫基于两种假设：1.马尔可夫链所处的状态只跟他相邻时的前一个状态有关，而与其他时刻的状态无关。(齐次马尔可夫性）2.马尔可夫任意时刻...

2018-03-11 21:46:13 460

caizd2009的博客