推荐系统实践
推荐系统学习全记录。
LotusQ
自得其乐
展开
-
【Spark编程基础(3)】Spark的设计与运行原理
文章目录1.Spark概述2.Spark生态系统3. Spark运行架构3.1基本概念3.2 架构设计3.3 Spark运行基本流程3.4 RDD的设计与运行原理4.Spark的部署和应用方式1.Spark概述对Hadoop MapReduce的优点继承、缺点改进;基于内存的计算框架,大型,低延迟。三大分布式计算系统开源项目:hadoop、spark、storm。运行速度快:内存计算、循环...原创 2020-03-18 23:18:14 · 449 阅读 · 0 评论 -
【Spark编程基础(2.4)】Scala语言基础—函数式编程基础
4 函数式编程基础函数的定义与使用定义函数最通用的方法是作为某个类或单例对象的成员,这种函数被称为方法。函数类型和函数值字面量函数字面量整型可以把具体值在方法调用中传来传去->函数可以想整型值一样在不同的方法调用中操作 传递函数的输入参数类型和返回值类型一起构成函数的类型。当参数只有一个时,圆括号可以省略只有存在多个参数时,圆括号才是必须的匿名函数(Lam...原创 2020-02-29 16:10:04 · 255 阅读 · 0 评论 -
【Spark编程基础(2.3)】Scala语言基础—面向对象编程基础
文章目录3 面向对象编程基础3 面向对象编程基础类类的定义什么都不返回:Unit类成员的可见性默认公有,其他private(本类型和嵌套类型),protected(本类型和继承类型)封装,声明私有,getter,setter方法私有变量,读取value=和写入value_=方法的定义方式参数不能用var,val去修饰;一个方法如果只有一个参数可以省略圆点而采用中缀操...原创 2020-02-29 16:09:22 · 301 阅读 · 0 评论 -
【Spark编程基础(2.2)】Scala语言基础—Scala基础知识
文章目录2 Scala基础知识2 Scala基础知识基本数据类型和变量基本数据类型:Byte、Char、Short、Int、Long、Float、Double、Boolean。Int类型->scala.Int类String类型->java.lang.String字面量(literal)操作符优先级:算术运算符>关系运算符>逻辑运算符>赋值运算符...原创 2020-02-29 16:08:46 · 805 阅读 · 0 评论 -
【Spark编程基础(2.1)】Scala语言基础—Scala语言概述
文章目录1 Scala语言概述2 Scala基础知识3 面向对象编程基础4 函数式编程基础快速掌握Spark编程所需的Scala基础。1 Scala语言概述计算机的缘起形式系统:λ演算=图灵机计算机体系结构:冯·诺依曼2. 编程范式定义:编程的基本风格。分类:命令式编程(C++、Java、C)和函数式编程(Haskell、Lilang 、LiSP)函数式编程(泛函):计算-...原创 2020-02-26 11:21:37 · 348 阅读 · 0 评论 -
【Spark编程基础(1)】大数据技术概述
文章目录大数据时代大数据概念大数据的影响大数据关键技术大数据计算模式代表性大数据技术大数据时代第一次信息化浪潮(80年代):PC普及、自动化处理第二次信息化浪潮(95年):互联网普及第三次信息化浪潮(2010,2013中国兴起):云计算、大数据、物联网为什么大数据时代会到来?技术支撑:存储设备、CPU计算能力、网络带宽数据产生方式的变革:运营式系统阶段(沃尔玛)、用户原创内容阶段...原创 2020-02-18 11:01:10 · 357 阅读 · 0 评论 -
【大数据技术与推荐系统(9)】推荐系统与Lambda架构
文章目录背景介绍电子商务网站浏览记录、购买记录等推荐平台将各种数据整合在一起,以便于挖掘,推荐和广告推荐系统基本架构数据加载数据源多样性HDFS:用户点击日志等MySQL/Oracle:用户基本信息、用户购买记录等数据加载将不同的数据源中的数据导入HbaseHbase中以用户为单位组织数据实现方案MapReduce并行导入问题:与MySQL并发连接数过多,怎...原创 2020-02-27 03:36:48 · 614 阅读 · 0 评论 -
【大数据技术与推荐系统(8)】Spark推荐算法实战
文章目录Spark MLlib概述MLlib推荐算法介绍MLlib推荐算法实战Spark MLlib概述MLLib 是基于Spark 引擎实现的机器学习算法库良好的扩展性和容错性充分利用了Spark 扩展性和容错性属于Spark 生态系统重要组成部分实现了大部分常用的数据挖掘算法聚类算法分类算法推荐算法MLlib分类算法MLlib聚类算法MLlib推荐算法介绍Sp...原创 2020-02-27 03:04:06 · 1766 阅读 · 0 评论 -
【大数据技术与推荐系统(7)】Mahout推荐算法实战
文章目录Mahout概述Mahout推荐算法介绍Mahout推荐算法实战Mahout概述基于Spark/Flink/H2O开发的数据挖掘/机器学习库截止2014年底,mahout不再接收任何MapReduce开发的算法,转向spark良好的扩展性和容错性充分利用了MapReduce/Spark/Flink 和HDFS 的扩展性和容错性属于Hadoop生态系统重要组成部分...原创 2020-02-27 02:56:03 · 1074 阅读 · 0 评论 -
【大数据技术与推荐系统(6)】推荐算法及开发环境配置
文章目录推荐模型构建流程推荐算法概述基于协同过滤的推荐算法协同过滤实现推荐模型构建流程Data->Feature->ML Algorithm->Prediction OutputWhat data to use?显性数据RatingComments隐形数据Order history/return historyCart eventsPage vi...原创 2020-02-27 00:40:29 · 1213 阅读 · 0 评论 -
【大数据技术与推荐系统(5)】用户画像系统
文章目录什么是用户画像系统构建用户画像系统用户标签生成案例用户画像系统应用本文代码仓库地址:我的推荐系统学习求职之路什么是用户画像系统大数据时代人的数据化什么是用户画像用户画像的作用构建用户画像系统标签表示法标签是特征空间中的维度用户画像标签举例用户画像系统的挑战记录和存储亿级用户的画像支持和扩展不断增加的维度和偏好毫秒级更新支撑个性化推荐、广告投放和精细化...原创 2020-02-18 16:21:00 · 1483 阅读 · 1 评论 -
【大数据技术与推荐系统(4)】推荐系统设计
文章目录Lambda架构概述Lambda架构之批处理层Lambda架构之实时处理层Lambda架构之服务层Lambda架构概述大数据时代:3V(Volume、Velocity、Variety)——>分布式存储Twitter工程师Nathan Marz提出,Lambda系统架构提供了一个结合实时数据和Hadoop预先计算的数据环境的混合平台,以提供一个实时的数据视图,包括:批处理层、实时...原创 2020-02-14 16:47:29 · 899 阅读 · 0 评论 -
【大数据技术与推荐系统(3)】推荐系统设计
文章目录推荐系统设计用户界面重要性推荐系统设计需求分析和用户调研用户:新用户->兴趣未知,着重促销、多样性、新颖性老用户->兴趣已知,着重个性化主流用户,小众群体?推荐什么:价格一致,用户经常购买的类别书、电影、音乐、文章->以用户对内容主题的兴趣为主价格不一致,用户经常购买的类别服饰、日用百货->视觉、品牌、价格、内容用户很少购买的类别...原创 2020-02-13 15:25:50 · 668 阅读 · 0 评论 -
【大数据技术与推荐系统(2)】认识推荐系统
文章目录什么是推荐系统推荐系统应用推荐系统评测什么是推荐系统产生原因:无明确需求和信息过载连接用户和商品的桥梁。推荐系统和搜索引擎对比:相同点:帮助用户快速发现有用信息不同点:搜索引擎需要用户主动提供准确的关键词来寻找信息;推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为给用户兴趣建模。关系:搜索引擎满足了用户有明确目的时的主动查找需求;推荐系统能够在用户没有明确目的的时...原创 2020-02-13 15:06:12 · 434 阅读 · 0 评论 -
【大数据技术与推荐系统(1)】推荐系统与大数据的关系
文章目录大数据概述推荐系统技术栈课程安排大数据概述关键词: PB、EB、集群应用领域:互联网领域:搜索引擎、推荐系统、广告系统电信领域:用户画像、用户行为分析医药生物领域:DNA分析视频领域:视频存储、视频分析金融领域:信用卡欺诈分析、用户分析矿产勘探领域:矿产石油勘察预测大数据技术框架推荐系统技术栈Hadoop生态系统Spark生态系统推荐系统还需要课程安排...原创 2020-02-13 14:43:33 · 1694 阅读 · 0 评论 -
设计推荐系统的10条原则
2009 年 ACM 推荐系统大会上 Strand 研究人员做了一个报告”推荐系统十堂课”,在这个报告中 Strand 的研究人员总结了他们设计推荐系统的经验,提出了10条在设计推荐系统中学习到的经验和教训:确定你真的需要推荐系统。推荐系统只有在用户遇到信息过载时才必要。如果你的网站物品不太多,或者用户兴趣都比较单一,那么也许并不需要推荐系统。所以不要纠结于推荐系统这个词,不要为了做推荐系统...原创 2020-01-16 22:02:13 · 303 阅读 · 0 评论 -
《推荐系统实践》第7章:推荐系统实例——如何从零构造推荐系统
外围架构核心:界面展示和用户行为数据界面展示一般都有一些共性,三点。数据收集和存储需要实时存取的数据存在数据库和缓存中;大规模的非实时存取数据存储在分布式文件系统(如HDFS)中。推荐系统架构原始图如果将用户喜欢的物品和用户与其相似的用户也看做为特征的话,抽象为下图:基于特征的推荐系统架构推荐系统架构图说明:每个推荐引擎负责一类特征和一种任务,推荐系统的任务是将推荐引擎...原创 2020-01-16 21:57:57 · 921 阅读 · 0 评论 -
《推荐系统实践》第6章:利用社交网络数据的推荐系统
简介社会图谱-》society(社会)兴趣图谱-》community(社区)数据集分为三种:双向确认、单向关注和基于社区的(如豆瓣小组)。推荐算法基于邻域的社会化推荐算法用户u对物品i的兴趣:pui=∑v∈ out (u)rvip_{u i}=\sum_{v \in \text { out }(u)} r_{v i}pui=v∈ out&nbs...原创 2020-01-16 21:39:50 · 1126 阅读 · 0 评论 -
《推荐系统实践》第5章:利用上下文信息的推荐系统
主要分为时间上下文和地点上下文,其中时间上下文主要是保证系统的实时性。下面介绍几种算法。时间上下文推荐算法最近最热门计算公式:ni(T)=∑(u,i,t)∈ Train, t<T11+α(T−t)n_{i}(T)=\sum_{(u, i, t) \in \text { Train, } t<T} \frac{1}{1+\alpha(T-t)}ni(...原创 2020-01-16 19:06:11 · 534 阅读 · 0 评论 -
《推荐系统实践》第4章:利用用户标签数据构建推荐系统
标签简介基于标签的推荐系统原创 2020-01-16 15:32:37 · 387 阅读 · 0 评论 -
《推荐系统实践》第3章:推荐系统冷启动问题
问题简介用户冷启动、物品冷启动、系统冷启动解决方法利用用户注册信息利用人口统计学信息、用户兴趣描述、其他网站导入的用户站外行为数据等信息提供粗粒度的个性化推荐。基本流程:1)获取用户注册信息;2)对其分类;3)推荐所属分类中用户最喜欢的物品。核心,计算每种特征用户喜欢的物品,公式如下:p(f,i)=∣N(i)∩U(f)∣p(f, i)=|N(i) \cap U(f)|p(f,i)...原创 2020-01-15 22:26:23 · 445 阅读 · 3 评论 -
《推荐系统实践》第2章:协同过滤——基于用户行为分析的推荐算法
文章目录用户行为数据用户行为分析协同过滤算法基于邻域的方法隐语义模型基于图的随机游走算法实验设计和算法评测用户行为数据就是日志,分为显性反馈行为和隐形反馈行为。一条日志包括:user id、item id、行为种类、上下文(时间地点)、行为权重、行为内容。常用数据集MovieLen数据集用户行为分析用户活跃度和物品流行度都遵循长尾分布(Power Law)。横坐标为流行度和活跃度,纵...原创 2020-01-15 20:15:03 · 1641 阅读 · 0 评论 -
《推荐系统实践》第1章:推荐系统评测
文章目录实验方法评测指标评测维度实验方法离线实验用户调查在线实验(AB测试)评测指标字面意思,部分涉及到公式,这地方先不细看,占坑。用户满意度预测准确度——评分预测、TopN推荐★覆盖率——信息熵、基尼系数多样性新颖性惊喜度信任度实时性健壮性商业目标评测维度用户维度物品维度时间维度...原创 2020-01-14 21:45:57 · 243 阅读 · 0 评论 -
《推荐系统实践》阅读笔记
前言:本书比较简单,页数也不到两百,适合入门。本书是将20年来推荐系统的发展期间诞生的典型方法进行总结。章节是根据不同类型的用户数据而安排,然后介绍使用的方法,在公开数据集上进行评测。本书介绍分为两种,一是公式;二是代码。第一章:好的推荐系统(实验方法、评测指标与维度)第二章:利用用户行为数据()第三章:推荐系统冷启动问题第四章:利用用户标签数据第五章:利用上下文信息...原创 2020-01-14 21:36:08 · 168 阅读 · 0 评论 -
推荐系统入门
因为找工作需要,在这里记录一下学习推荐系统的过程。机器学习&深度学习略书籍《推荐系统实践》——项亮《推荐系统——技术、评估及高效算法》(Recommender Systems Handbook)《推荐系统开发实战》——高阳团《推荐系统算法实践》——黄美灵经典论文FM:《Factorization Machines》FFM:《Field-aware Factoriza...原创 2020-01-14 21:20:05 · 626 阅读 · 3 评论