![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
HeCCXX
这个作者很懒,什么都没留下…
展开
-
Spark Streaming+kafka+spring boot+elasticsearch实时项目(canal)
在本次实验中,利用spark、elasticsearch、kafka等相关框架搭建一个实时计算系统。具体流程如下图所示,用户访问对应服务,由nginx服务器进行负载均衡访问具体的主机上的服务,访问过程中将产生用户具体的操作日志,该操作日志将由具体服务发送保存到Kafka集群(或者可以写到具体文件,可以通过Flume对日志文件进行采集,发送到Kafka集群)。数据缓存到kafka集群后,利用...原创 2019-11-25 18:17:53 · 1843 阅读 · 0 评论 -
RDD(弹性分布式数据集)介绍---Spark的核心
Sparkspark和hadoop的区别:hadoop磁盘IO开销大,延迟高、表达能力有限(需要转换为MapReduce)、在前一个任务执行完成之前,其他任务都无法开始,map 和 reduce过程,任务之间的衔接。spark计算模式也属于MapReduce,但不局限与map和reduce操作,还提供了多种数据集操作类型、提供内存计算,将中间结果放在内存中,对于迭代计算效率更高。...原创 2019-11-02 17:24:38 · 411 阅读 · 0 评论