数据挖掘
caizd2009
这个作者很懒,什么都没留下…
展开
-
频繁项集与关联规则挖掘
刚刚做完一个关联分析的工作,现在趁着跑代码的时间总结一下吧。现在其实这两都用的非常少了关联分析:目的用于发现数据中可能隐含的有意义的联系。联系则可以通过频繁项集与关联规则来表示。比如:若存在这样的关联规则:{尿布}—>{啤酒},则说明尿布与啤酒之间存在很强的联系。那么这种规则建立的规则是什么?最基本的首先要该组合出现的次数足够多,若数据仅仅是在10次里出现5次,显然缺乏说服力。那...原创 2018-06-28 17:25:10 · 5326 阅读 · 0 评论 -
推荐系统与Attention机制——详解Attention机制
什么是Attention机制?Attention机制的本质来自于人类视觉注意力机制。人们在看东西的时候一般不会从到头看到尾全部都看,往往只会根据需求观察注意特定的一部分。简单来说,就是一种权重参数的分配机制,目标是协助模型捕捉重要信息。具体一点就是,给定一组<key,value>,以及一个目标(查询)向量query,attention机制就是通过计算query与每一组key的相...原创 2019-02-25 16:51:40 · 7169 阅读 · 1 评论 -
智能推荐系统新用户冷启动—EE问题及Bandit算法!
前言几乎在所有信息消费类的应用场景中,对于外部画像缺失的新用户,如何承接都是一个棘手但又十分关键的问题。承接的好,理所当然就能提升留存率,离人生巅峰就更进一步了,嘿嘿!算法适用场景:新用户冷启动 用户兴趣探索 (请各位补充)如何定义新用户(冷启动用户)?在这抛砖引玉,说三点简单的方法。综合曝光,点击数等行为。 基于用户画像。 综合各种信息。Exploration a...原创 2019-02-26 09:20:07 · 2173 阅读 · 0 评论 -
Batch Normalization简析
什么是Batch Normalization?批量标准化(BN)指的是对神经网络每一层的输入进行标准化,目的是为了解决训练过程中输入数据分布漂移——Internal Covariate Shift。什么是Internal Covariate Shift?首先机器学习算法都有一个前提假设:数据是独立同分布的。简单来说就是输入空间内的所有变量都服从某一个隐含分布,而模型则是去学习这个分布。...原创 2019-06-24 21:26:53 · 308 阅读 · 0 评论 -
机器学习深度学习必备之——正则化综述
什么是正则化?首先英文原文为regularization,直译应为规则化,简单来说就是对模型加入规则,加入我们的先验知识,如果觉得正则化太难理解,可以按照规则化来理解记忆。切入正题,正则化说的就是对模型引入额外信息来防止模型过拟合与提高模型泛化性能的方法统称。一般是对模型复杂程度加以惩罚,目标是降低模型的复杂度(模型的结构化风险),根据奥卡姆剃刀原理,精度靠谱的情况下越简单的模型是越值得选...原创 2019-07-29 00:33:52 · 561 阅读 · 0 评论 -
机器学习常用评估指标AUC简析——看懂AUC一文就够了
什么是AUC?AUC的定义是ROC曲线下的面积,实际意义为模型打分时将正例分数排在反例前面的概率。ROC曲线一般都会处于0.5-1之间,所以auc一般是不会低于0.5的,0.5为随机预测的auc。什么是ROC曲线?ROC中文名为:受试者操作特征(receiver operating characteristic curve),源于二战雷达信号分析技术。ROC曲线绘制:分别计算模型结...原创 2019-07-25 13:18:13 · 14823 阅读 · 3 评论 -
Adam等机器学习深度学习主流优化算法简析
什么是优化算法?简单来说就是一种通过迭代逼近最优解的方法,即最优解的渐近估计方法。深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 这样的发展历程,目前Adam应该是最常用的优化算法。为什么需要优化算法?1.有的问题并没有解析解,只能迭代求得近似解2.问...原创 2019-08-05 00:01:10 · 1077 阅读 · 0 评论