大数据推荐系统算法(2) lambda架构

大数据推荐系统算法(1)大数据框架介绍
大数据推荐系统算法(2) lambda架构
大数据推荐系统算法(3) 用户画像
大数据推荐系统(4)推荐算法
大数据推荐系统(5)Mahout
大数据推荐系统(6)Spark
大数据推荐系统(7)推荐系统与Lambda架构
大数据推荐系统(8)分布式数据收集和存储
大数据推荐系统(9)实战
一、介绍
大数据 3V
1.海量数据 Volume
2.更新频率高 Velocity
3.图像,文本,语言 非结构画数据 Variety

Lambda架构
1.Lambda系统架构提供了一个结合实时数据和Hadoop预先计算的数据环境的混合平台,以提供一个实时的数据视图。
2.分层架构:批处理层、实时处理层、服务层

批处理:批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。
流式处理: 流处理系统会对随时进入系统的数据进行计算。相比批处理模式,这是一种截然不同的处理方式。流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作。

在这里插入图片描述
上面两部分是批处理层
下面部分是实时处理层 query 前端展示

一些框架:
4在这里插入图片描述

举例:
在这里插入图片描述
二、批处理:
在这里插入图片描述
特点:
1.数据不可变
2.可以进行任何计算
3.水平扩展——数据量大
4.高延迟——根据计算量和数量不同,运行时间可能几分钟到几个小时

日志收集Flume
在这里插入图片描述
服务器对应agent
collector 对应agent的聚合

关系型数据收集Sqoop
在这里插入图片描述
分布式存储:HDFS 和 HBase
在这里插入图片描述

分布式计算Spark(整体调度,基于内存) mapReduce(作业单独调度,写磁盘)
在这里插入图片描述

产生视图
在这里插入图片描述
序列化:内存读入硬盘
反序列化:硬盘读入内存

在这里插入图片描述

视图存储:
存储量比较大可以考虑HBASE,但是不能汇总,属于NoSQL;
Cassandra数据NoSQL,没有固定的主节点,就是挂掉一个节点也没有关系;
Impala满足前段交互式的访问,mpp架构;
Redis、memcache高效推送、展现,但是可靠性不高,Redis相对好一些;
MySQL关系型数据库

在这里插入图片描述

三、实时处理层:
在这里插入图片描述
流式处理特点:
1.流式处理:storm
2.持续计算
3.存储和分析某个窗口的数据:比如5分钟内
4.最终确定性:有些算法很难实时计算,此时采用估计值即可

在这里插入图片描述

数据分析:
在这里插入图片描述

试图存储
在这里插入图片描述

四、服务层
1.支持随机读
2.需要在非常短的时间内返回结果
3.读取batch layer 和 speed layer结果,并对其归并
在这里插入图片描述

实例:
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值