- 博客(16)
- 资源 (18)
- 收藏
- 关注
原创 ElasticSearch 优化实战
二. 查询性能(Query Perofrmance)王道是什么?routing,routing,还是 routing。我们为了提高查询速度,减少慢查询,结合自己的业务实践,使用多个集群,每个集群使用不同的 routing。比如,用户是一个routing维度。在实践中,这个routing 非常重要。我们碰到一
2017-10-28 15:17:50 1080
原创 ElasticSearch 优化总结
ElasticSearch 优化总结目录ElasticSearch 优化总结目录OSOS 参数说明OS 参数配置ESLinux Release: CentOS release 6.4ES Version: 2.xOSOS 参数说明vm.swappiness1
2017-10-28 15:08:56 831
原创 elasticsearch调优技巧
elasticsearch 性能调优所有的修改都可以在elasticsearch.yml里面修改,也可以通过api来修改。推荐用api比较灵活1.不同分片之间的数据同步是一个很大的花费,默认是1s同步,如果我们不要求实时性,我们可以执行如下:$ curl -XPUT 'http://localhost:9200/twitter/' -d '{ "
2017-10-28 09:39:45 8457
原创 NiFi流处理引擎
有特点的流处理引擎NiFi流处理不止有flink、storm、spark streaming,今天介绍一个大家不一定用得很多,但是却很有特点的东西,NiFi。前面写了flink的文章,其实流处理不止有flink、storm、spark streaming,说实话这些其实都是比较传统的流处理框架。今天介绍一个大家不一定用得很多,但是却很有特点的东西,NiFi。
2017-10-24 19:26:10 6087
原创 spark driver HA
实验环境: zookeeper-3.4.6 Spark:1.6.0 简介: 本篇博客将从以下几点组织文章: 一:Spark 构建高可用HA架构 二:动手实战构建高可用HA 三:提交程序测试HA一:Spark 构建高可用HA架构 Spark本身是Master和Slave,而这这里的 Master是指Spark资源调度和分配。负责整个集群的资源调度和分
2017-10-24 10:16:29 1279
转载 SparkStreaming Kafka基本概念
1.Storm 和 SparkStreaming区别Storm 纯实时的流式处理,来一条数据就立即进行处理SparkStreaming微批处理,每次处理的都是一批非常小的数据Storm支持动态调整并行度(动态的资源分配),SparkStreaming(粗粒度, 比
2017-10-24 09:47:38 623
原创 最全spark基础知识
《倾情大奉送--Spark入门实战系列》 1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:Spark中的Driver即运行上述Applicati
2017-10-23 20:13:45 926
原创 spark性能优化高级篇
Spark性能调优高级篇 分类:spark平台学习(2) 目录(?)[+]前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优
2017-10-23 19:33:13 460
转载 spark SQL上踩过的坑
那些年我们在spark SQL上踩过的坑1.高并发情况下的内存泄露的具体表现很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui上一直处于pending状态,且永远不结束,如下图所示
2017-10-21 19:58:25 1066
原创 spark-sql调优
sparksql性能调优性能优化参数 代码实例import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.api.java.JavaSQLContext
2017-10-21 19:45:41 4089
原创 Spark Sql性能测试
Spark Sql性能测试及调优目录(?)[+]内存不足时group by操作失败。正常应该速度变慢,而不是失败,因为还有磁盘可用错误日志:Task:java.io.IOException: Filesystem closed atorg.apache.hadoop.hdfs.DFSClient.check
2017-10-21 19:38:37 1010
原创 机器学习与深度学习资料
机器学习与深度学习资料机器学习《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这
2017-10-21 19:17:58 3915
原创 JVM调优实战
java application项目(非web项目)改进前:-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CMSInitiatingOccupancyFraction=78-XX:ThreadStackSize=128-Xloggc:logs/gc.log-Dsun.rmi.dgc
2017-10-18 19:36:15 412
原创 Spark on Yarn下JVM的OOM问题及解决方式
Spark JVM的OOM和Stack Overflow问题1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式Spark on Yarn cluster mode: 此时有可能会报OOM的错误,具体来说: 由于Client模式下一定没有出现OOM,而在Cluster模式下一定出现了
2017-10-18 17:58:34 1847
原创 Spark SQL UDF和UDAF示例
Spark SQL UDF和UDAF/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types._
2017-10-18 17:46:40 2126
原创 Spark Parquet使用
Spark SQL下的Parquet使用最佳实践和代码实战 分类:spark-sql(1) 一、Spark SQL下的Parquet使用最佳实践1)过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式:a)Data Source -> HDFS -> MR/H
2017-10-18 15:09:26 11832
ReceiverCleanupUtility
2018-09-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人