自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 spark SQL踩坑记

做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。 spark 内存泄露 1.高并发情况下的内存泄露的具体表现 很遗憾,Spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后...

2017-03-07 14:45:00 178

转载 基于spark的排序及其性能测试

排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能...

2017-03-07 14:43:00 274

转载 基于spark之上的即席分析-spark内存泄漏及源码调优

spark 内存泄露 1. 高并发情况下的内存泄露的具体表现 很遗憾, spark 的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行 100 并发的查询,在压测 3 天后发现了内存泄露。 a) 在进行大量小 SQL 的压测过程中发现,有大量的 act...

2017-03-06 16:35:00 190

转载 基于spark之上的即席分析-技术原理

一.YDB的本质? 在Spark之上基于搜索引擎技术,实现索引和搜索功能。 既有搜索引擎的查询速度,又有Spark强大的分析计算能力。 可对多个字段进行关键字全匹配或模糊匹配检索,并可对检索结果集进行分组、排序、计算等统计分析操作。 二.多种技术组合-万亿数据秒级查询 ...

2017-03-06 16:29:00 144

转载 基于spark之上的即席分析-日志分析场景

YDB 场景精选之运维日志、 业务日志、 交易流水日志的搜索与分析 通过方便灵活的日志搜索分析,帮助用户及时发现问题 统一日志查询平台,程序故障定位平台 开发与运维人员经常需要登录线上生产系统, 通过 grep、 tail、 more、 cat 等命令去生产系统里查找故障原因, 排查...

2017-03-06 16:23:00 160

转载 基于spark之上的即席分析-基础环境设置

1.Ulimit配置 操作系统默认只能打开1024个文件,打开的文件超过这个数发现程序会有“too many open files”的错误,1024对于大数据系统来说显然是不够的,如果不设置,基本上整个大数据系统是“不可用的”,根本不能用于生产环境。 配置方法如下: echo "*...

2017-03-06 16:22:00 104

转载 基于spark之上的即席分析-卓越性能

为探索性分析与即席分析而设计 YDB全称延云YDB:是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引:精确粒度的索引。数据即时导入,索引即时生成,通过索...

2017-03-06 16:20:00 132

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除