choukao5868-CSDN博客

排序可以说是很多日志系统的硬指标（如按照时间逆序排序），如果一个大数据系统不能进行排序，基本上是这个系统属于不可用状态，排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark，还是impala,hive，总之排序是必不可少的，排序的性能测试也是必不可少的。 ...

2017-03-07 11:02:00 211

spark 内存泄露 1.高并发情况下的内存泄露的具体表现很遗憾，Spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。 a)在进行大量小SQL的压测过程中发现，有大量的activejob在spark u...

2017-03-07 10:59:00 232

关于spark的性能，基于YDB的对比，做了一个测试，保留备用。一、YDB与spark sql在排序上的性能对比测试在排序上，YDB具有绝对优势，无论是全表，还是基于任意条件组合过滤，基本秒杀Spark任何格式。测试结果(时间单位为秒) ...

2017-03-07 10:56:00 130

为探索性分析与即席分析而设计 YDB全称延云YDB：是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引：精确粒度的索引。数据即时导入，索引即时生成，通过索...

2017-03-06 17:00:00 95

1.Ulimit配置操作系统默认只能打开1024个文件，打开的文件超过这个数发现程序会有“too many open files”的错误，1024对于大数据系统来说显然是不够的，如果不设置，基本上整个大数据系统是“不可用的”，根本不能用于生产环境。配置方法如下： echo "*...

2017-03-06 16:55:00 71

YDB场景精选之运维日志、业务日志、交易流水日志的搜索与分析通过方便灵活的日志搜索分析，帮助用户及时发现问题统一日志查询平台，程序故障定位平台开发与运维人员经常需要登录线上生产系统，通过 grep、 tail、 more、 cat 等命令去生产系统里查找故障原因，排查...

2017-03-06 16:51:00 89

一.YDB的本质? 在Spark之上基于搜索引擎技术，实现索引和搜索功能。既有搜索引擎的查询速度，又有Spark强大的分析计算能力。可对多个字段进行关键字全匹配或模糊匹配检索，并可对检索结果集进行分组、排序、计算等统计分析操作。二.多种技术组合-万亿数据秒级查询 ...

2017-03-06 16:47:00 143

spark 内存泄露 1. 高并发情况下的内存泄露的具体表现很遗憾， spark 的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行 100 并发的查询，在压测 3 天后发现了内存泄露。 a) 在进行大量小 SQL 的压测过程中发现，有大量的 act...

2017-03-06 16:44:00 111

choukao5868的博客