●Olap即时分析
文章平均质量分 92
代立冬
StayHungryStayFoolish外功修行内功修神
展开
-
[Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量
比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点,能定义在计算函数内的方法就定义在里面。原创 2016-03-19 22:33:03 · 7630 阅读 · 3 评论 -
大数据分析的下一代架构--IOTA架构设计实践[下]
IOTA架构提出背景大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下:Lambda架构的核心思想是:数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平台,去计算实时的一些指标;另一条线进入批量数据处理离线计算平台,去计算T+1的相关业务指标,这些指标需...原创 2018-12-31 20:59:53 · 4974 阅读 · 0 评论 -
2019.01.12 Presto中国区用户线下Meetup
2019.01.12号,我们邀请Presto原创团队莅临中国,带来关于Presto的最新feature和roadmap动态,也邀请国内的Presto前沿公司兄弟分享实践干货,期待各位朋友的参加:活动地点:北京 朝阳区绿地中心B座10层 盖亚互娱 乌月神殿活动时间:2019年1月12日 14:00 ~ 2019年1月12日 17:30活动议程:议程一 14:00-14:30 Introdu...原创 2019-01-13 12:38:37 · 1152 阅读 · 0 评论 -
spark-submit时上传spark依赖到hdfs时间较长问题解决
spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图:这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/2.1.1/running-on-yarn.html翻译过来就是: 要想在yarn spark...原创 2018-12-22 17:55:47 · 2276 阅读 · 0 评论 -
druid异常处理:Types.collectionOf(Ljava/lang/reflect/Type;)Ljava/lang/reflect/ParameterizedType
2018-11-10T19:54:35,072 INFO [task-runner-0-priority-0] io.druid.indexer.DetermineHashedPartitionsJob - Job wikiticker-determine_partitions_hashed-Optional.of([2015-09-12T00:00:00.000Z/2015-09-13T00:...原创 2018-11-10 20:22:27 · 1435 阅读 · 1 评论 -
Alluxio Meetup 2018.10.28北京进行,欢迎交流
#搜狗如何将Spark Shuffle迁移到上千台Alluxio机器集群,服务知识图谱?#七牛云如何用Alluxio在云端搭建通用深度学习平台?#京东又是如何定制基于普雷斯托的查询平台?欢迎大家参加2018.10.28(本周日)Alluxio Meetup北京站。与Alluxio公司的创始人兼CEO李浩源面对面,交流Alluxio的发展历程;与多位业绩大咖一起,讨论优秀案例原创 2018-10-24 11:58:51 · 830 阅读 · 0 评论 -
ES实践经验分享
公司小伙伴最近分享了ES的实践经验,在此分享给大家:一、 硬件环境选择如果有条件,尽可能使用SSD硬盘, 不错的CPU。ES的厉害之处在于ES本身的分布式架构以及lucene的特性;IO的提升,会极大改进ES的速度和性能;内存配置方面,一般来说,64G内存的机器节点较佳。 二、系统拓朴设计 ES集群在架构拓朴时,一般都会采用Hot-Warm的架构模式,即设置3种不同类型的节...原创 2018-09-19 17:22:20 · 1133 阅读 · 0 评论 -
各种压缩技术性能比较
各种压缩技术性能比较:Compressor name Ratio Compression Decompress. zstd 1.3.4 -1 2.877 470 MB/s 1380 MB/s zlib 1.2.11 -1 2.743 110 MB/s 400 MB/s brotli 1.0.2 -0 2.701 41...原创 2018-09-14 12:09:48 · 2792 阅读 · 0 评论 -
对DStream.foreachRDD的理解
最近在使用Spark Streaming过程中,对foreachRDD有点疑问,查阅资料后记录如下:foreachRDD(func)的官方解释为The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should p转载 2017-11-09 11:36:47 · 2690 阅读 · 1 评论 -
Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念转载 2017-04-05 09:59:52 · 1157 阅读 · 0 评论 -
Spark实战
01.Spark简介(Spark VS MapReduce)02.Spark生态系统03.Scala集合简介04.spark的关键组件05.核心概念:弹性分布式数据集06.RDD的操作(转换(transformation)动作(actions))07.RDD依赖08.Wordcount例子09. 提交job10.编程接口11.Spark运行架构12.Spark SQL13.SparkStreaming14.练习题15.延伸原创 2015-06-24 16:07:05 · 28511 阅读 · 8 评论 -
Spark Streaming 的一些问题
Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。checkpointcheckpoint 是个很好的恢复机制。但是方案比较粗暴,直接通过序列化的机制写入到文件系统,导致代码变更和配置变更无法生效。实际场景是升级往往比系统崩溃的频率高太多。但是升级需要能够无缝的衔接上一次的偏移量。所以spark streaming在无法容忍转载 2016-01-18 01:19:24 · 1898 阅读 · 0 评论 -
Spark Streaming 实现思路与模块概述
Spark Streaming 实现思路与模块概述[酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:2016.01.04 update, Spark 1.6 全系列 √ (1.6.0)2015.11.09 update, Spark 1.5 全系列 √ (1.5.0, 1.5.转载 2016-02-05 16:19:12 · 1743 阅读 · 0 评论 -
开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)
本文为博主公司原创文章,仿冒必究,转载请回复留言开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO 郭炜 序现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Presto、Impala...原创 2019-01-21 10:47:05 · 38170 阅读 · 36 评论