推荐算法专栏
文章平均质量分 88
本文重点在于介绍常见的推荐算法,常见的推荐算法主要有两类:1)特征工程+机器学习(深度学习);2)基于协同理论的推荐。
又见智能商业
这个作者很懒,什么都没留下…
展开
-
HiveSQL函数优化原理
更多内容,欢迎观众公众号:livandata1、group by的计算原理:代码为:SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;可以看到,group by本身不是全局变量,任务会被分到各个map中进行分组,然后再在reduce中聚合。默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。ma.原创 2021-01-21 10:28:05 · 1146 阅读 · 0 评论 -
基于Pyspark进行PCA主成分分析
了解更多内容,欢迎关注公众号:livandataPyspark是近段时间笔者接触到的比较高效的大数据处理工具,他的亮点是整理出了数据分析过程中两个最高频应用的工具:pandas的DataFrame包和sklearn包,能够方便的完成数据处理及模型构建两块内容,上一篇笔者整理了Pyspark的常规用法,本篇以一个案例的形式串联一下pyspark的内容:在小数据集中构建一个PCA模型是非常方便的,DataFrame构建完成后直接调用sklearn的PCA包即可,那么,在大数据集中是否也是这样方便呢?原创 2021-01-21 10:05:55 · 1891 阅读 · 0 评论 -
深度学习与推荐系统(十五)——LS-PLM(MLR)模型
CTR预估的发展过程中,LR模型是比较常用的方法,因为其计算量小容易并行,工业上应用非常广泛,同时也引发了各位大佬基于LR模型的优化改进,这一改进通常有两个方向,一个是走融合路,即GBDT+LR样式,将LR模型与其他的模型算法结合,达到优势互补的效果;另一个就是因子分解,即FM系列探索,它们的主要思想就是构造交叉特征或者是二阶的特征来一起进行训练。除此之外也会有一些大佬给出一些新的思路,比如本文中介绍的LS-PLM模型(又叫MLR模型),这一模型是用传统的机器学习方法模仿了深度学习的结构,采用divid原创 2020-09-15 09:55:17 · 2509 阅读 · 0 评论 -
推荐算法模型应用——策略运营沙盘与促活引擎
个人公众号:livandata前面聊了那么多推荐类的算法,具体在数据产品中该如何应用呢?是不是这些推荐逻辑只能应用在推荐系统中呢?我想未必的,用户兴趣在业务逻辑中几乎可以渗透到工作的方方面面,简单来讲:无论什么业务,但凡接触客户,就给他最喜欢的东西,是不是一个最好的策略?答案可能是未必,但是在大部分领域还是非常有价值的,笔者在这一文章中跟大家分享一下两个常见的应用方向:1)活动受欢迎程度、最佳人群/活动推荐:1.1)我们根据经验设计了一个闪闪发光的活动,是否真的符合当下公司的客群?1.2原创 2020-09-06 01:08:20 · 1157 阅读 · 0 评论 -
增长黑客AB-Testing系统设计
个人公众号:livandataAB-test思路数据驱动概念兴起的同时,AB-test也同步出现在大家的视线中,各互联网大厂率先引进了AB-test系统,希望通过循环的测试,上线最符合公司客群的产品。这一理念一出引发行业内各个公司的效仿,各种宣导纷至而来,那么,什么是AB-test?什么样的公司能迅速构建出AB-test系统?我们今天来一起聊一下:什么是AB-test?携程的大佬们曾给出一个定义:AB试验可以简单的认为是传入一个实验号和用户分流ID到AB试验分流器,分流器吐出分流版本A、B原创 2020-09-06 00:45:28 · 632 阅读 · 0 评论 -
推荐系统与深度学习千字文——FFM模型原理
上一篇我们讲解了FM模型:推荐系统与深度学习(一)——FM模型原理从FM的公式我们可以看出: FM中每个特征所对应的向量是唯一的: Vi是Xi的向量化表达,多个特征相乘的时候,只需要将Vi相乘,这一模型的优势在于考虑高维特征组合的情况下最小化运算量,但是问题也是有的:这一模型没有考虑各个特征之间的关系,而不同特征之间的关系恰巧是不一样的。例如: Publisher与Advertisor可能是正相关/强相关,Publisher与Gend...原创 2020-07-15 00:30:42 · 540 阅读 · 0 评论 -
深度学习与推荐系统千字文——FM模型
前言简单的机器学习模型构建往往假设各个特征之间相互独立,并基于特征独立进行模型训练,例如:LR、SVM;但是实际场景中特征往往存在相互关联的,比如:女性更喜欢化妆品类广告,男性更喜欢球类装备广告:女性—化妆品,男性—球类设备两者之间的关联性较高。因此,关联特征需要考虑引入到模型建设中。关联特征在one-hot变化中是按照笛卡尔积的形式呈现的,容易引发高维灾难,比如性别和品类的关联特征如下:(男/球类)的向量为(女/球类,女/化妆品,男/球类,男/化妆品),on...原创 2020-07-15 00:27:45 · 430 阅读 · 0 评论 -
一文系统搞懂协同推荐算法(二)
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata不知大家对推荐算法有没有一个系统的了解,推荐本身的逻辑很简单,就是需要找到用户喜...原创 2020-02-16 16:55:22 · 1639 阅读 · 0 评论 -
一文系统搞懂协同推荐算法(一)
推荐系统的重要性已经不需要过多的强调了,随处一搜索就能看到各领域的大佬告诉你推荐系统的构建方法,面试的时候不讲几个协同都不好意思说自己懂算法,各个资料都会对协同的每一个细节详细描述,不知大家看完之后有没有一个感触:各个知识点都了解了,就是串不起了,而且也多少会有些疑惑,就这么简单?被全宇宙的人推崇的推荐算法就是简单的几个表的来回计算吗?那平时我们应用的机器学习的各种算法都去哪里了?1、协同推荐...原创 2020-02-15 22:04:00 · 4569 阅读 · 0 评论 -
算法专题01 - 主成分分析及Python实现
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata主成分分析的原理是尽可能保留数据信息的情况下,减少数据的维度,防止出现数据冗余。...原创 2019-02-26 19:56:54 · 1457 阅读 · 0 评论