![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
实时计算
学步猴子
这个作者很懒,什么都没留下…
展开
-
实时计算之日志系统
1、日志系统(FLUME、kafka) 1.1 FLUME 概念: Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。 特点 :flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中 ...原创 2019-09-16 10:35:00 · 431 阅读 · 0 评论 -
实时计算之离线任务发布相关指南--hue
目前公司的spark平台不能直接采用shell进行登陆和任务发布,通过hue进行任务的发布,并可以完成相关的任务执行。当然在目前的条件下,能够算是完成了预期的目标,后期随着大家对spark平台的认识的加深和理解的深入,进而进行spark优化。 在进行任务发布相关流程讲解之前,首先对相关的环境进行配置,有关环境配置一定要与spark平台的保持一致: 1、公司的安装spark版本为2.3.0,目前sp...原创 2019-09-16 10:45:16 · 663 阅读 · 0 评论 -
spark数据持久化方案及代码实现
数据持久化,即将spark streaming 生成的数据进行保存以便未来进行数据的复现和查询,目前数据持久化的方案主要有:Hbase、HDFS、MySql、Dataworks四种,这四种方案各有千秋,下面详细说明这四种方案: 5.1 数据持久化方案简介 HBase:全称: Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术...原创 2019-09-16 11:12:34 · 601 阅读 · 0 评论 -
spark及spark sreaming相关测试demo
针对spark进行了一些相关测试:spark进行wordcount测试,spark streaming进行可行测试,Kafka消息生产进行测试 6.1 spark进行word count测试 采用比较常用的spark测试案例对spark能否进行运算进行了测试: import org.apache.spark.{SparkConf, SparkContext} object ScalaPi { d...原创 2019-09-16 11:18:09 · 561 阅读 · 0 评论