gongpulin-CSDN博客

转载 Apache Spark Jobs 性能调优（一）

转载：https://www.zybuluo.com/xiaop1987/note/76737Apache Spark Jobs 性能调优（一）Spark 性能调优原文地址：http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/Apache Spark Jobs 性能调优（一）Spark 是如...

2018-07-05 16:46:40 534

转载 Go Channel 详解

Channel是Go中的一个核心类型，你可以把它看成一个管道，通过它并发核心单元就可以发送或者接收数据进行通讯(communication)。它的操作符是箭头 <- 。12ch <- v // 发送值v到Channel ch中v := <-ch // 从Channel ch中接收数据，并将数据赋值给v(箭头的指向就是数据的流向)就像 map 和 slice 数据类型一样,...

2018-07-03 14:39:38 142

原创 open-falcon transfer rpc实现

1、为了防止一下子起很多goroutine,使用一个带缓冲channel的信号量限制并发起的goroutine起的数量package semaphoreimport ()type Semaphore struct { bufSize int channel chan int8}func NewSemaphore(concurrencyNum int) *Semaphore { ...

2018-07-02 17:49:46 694

转载 Go性能优化小结

1 内存优化1.1 小对象合并成结构体一次分配，减少内存分配次数做过C/C++的同学可能知道，小对象在堆上频繁地申请释放，会造成内存碎片（有的叫空洞），导致分配大的对象时无法申请到连续的内存空间，一般建议是采用内存池。Go runtime底层也采用内存池，但每个span大小为4k，同时维护一个cache。cache有一个0到n的list数组，list数组的每个单元挂载的是一个链表，链表的每个节点就...

2018-06-28 20:38:31 535

转载 Spark RDD（Resilient Distributed Datasets）论文

Spark RDD（Resilient Distributed Datasets）论文概要1: 介绍2: Resilient Distributed Datasets（RDDs）2.1 RDD 抽象2.2 Spark 编程接口2.2.1 例子 – 监控日志数据挖掘2.3 RDD 模型的优势2.4 不适合用 RDDs 的应用3 Spark 编程接口3.1 Spark 中 RDD 的操作3.2 举例应...

2018-06-28 20:06:01 487

转载 golang-map的实现

map的实现Go中的map在底层是用哈希表实现的，你可以在 $GOROOT/src/pkg/runtime/hashmap.goc 找到它的实现。数据结构哈希表的数据结构中一些关键的域如下所示：struct Hmap{ uint8 B; // 可以容纳2^B个项 uint16 bucketsize; // 每个桶的大小 byte *buckets; // 2^B个...

2018-06-28 15:42:20 6642

转载 golang sort —— 排序算法

sort —— 排序算法该包实现了四种基本排序算法：插入排序、归并排序、堆排序和快速排序。但是这四种排序方法是不公开的，它们只被用于sort包内部使用。所以在对数据集合排序时不必考虑应当选择哪一种排序方法，只要实现了sort.Interface定义的三个方法：获取数据集合长度的Len()方法、比较两个元素大小的Less()方法和交换两个元素位置的Swap()方法，就可以顺利对数据集合进行排序。...

2018-06-28 15:23:32 28358 6

转载深入解析 Go 中 Slice 底层实现

转载：https://halfrost.com/go_slice/切片是 Go 中的一种基本的数据结构，使用这种结构可以用来管理数据集合。切片的设计想法是由动态数组概念而来，为了开发者可以更加方便的使一个数据结构可以自动增加和减少。但是切片本身并不是动态数据或者数组指针。切片常见的操作有 reslice、append、copy。与此同时，切片还具有可索引，可迭代的优秀特性。一. 切片和数组关于切片...

2018-06-24 15:40:52 1071

原创 shell练习

1、shell实现wordcountcat wc.txtthe day is sunny the thethe sunny is issed -E 's/\s+/\n/g' wc.txt | sort | uniq -c | sort -nr | awk '$2!=""{print $2 " "$1}'结果：the 4is 3sunny 2day 12、shell查找某个目录下包含指定...

2018-06-11 15:48:17 239

转载 SQL练习

1、Consecutive Numbershttps://leetcode.com/problems/consecutive-numbers/description/Description数字表：+----+-----+| Id | Num |+----+-----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 ...

2018-06-11 12:12:26 707

原创 A master URL must be set in your configuration异常解决：

错误：Caused by: org.apache.spark.SparkException: A master URL must be set in your configuration at org.apache.spark.SparkContext.<init>(SparkContext.scala:401)原因：创建spark实例，或者sc.textFile读取数据...

2018-06-08 16:51:01 1334

转载 Redis核心概念

概述Redis 与其他 key - value 缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。Redis支持数据的备份，即master-slave模式的数据备份。概念说明Redis 优势1. 性能极高– R...

2018-06-02 21:10:19 1357

转载 HDFS NameNode重启优化

转载：https://tech.meituan.com/namenode-restart-optimization.html一、背景在Hadoop集群整个生命周期里，由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启，不论采用何种架构，重启期间集群整体存在可用性和可靠性的风险，所以优化NameNode重启非常关键。本文基于Hadoop-2.x和HA with QJM社区架构和...

2018-06-02 20:20:44 1073

转载 HDFS Federation在美团点评的应用与改进

转载：https://tech.meituan.com/hdfs-federation.html一、背景2015年10月，经过一段时间的优化与改进，美团点评HDFS集群稳定性和性能有显著提升，保证了业务数据存储量和计算量爆发式增长下的存储服务质量；然而，随着集群规模的发展，单组NameNode组成的集群也产生了新的瓶颈：扩展性：根据HDFS NameNode内存全景和HDFS NameNode内存...

2018-06-02 20:19:53 617

转载 HDFS NameNode内存全景

转载：https://tech.meituan.com/namenode.html一、概述从整个HDFS系统架构上看，NameNode是其中最重要、最复杂也是最容易出现问题的地方，而且一旦NameNode出现故障，整个Hadoop集群就将处于不可服务的状态，同时随着数据规模和集群规模地持续增长，很多小量级时被隐藏的问题逐渐暴露出来。所以，从更高层次掌握NameNode的内部结构和运行机制尤其重要。...

2018-06-02 20:04:16 285

转载 Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、...

2018-06-01 19:25:10 211

转载 spark性能优化：高级篇（数据倾斜调优，shuffle调优）

原文链接：http://tech.meituan.com/spark-tuning-pro.html前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能...

2018-06-01 19:24:16 178

转载 Golang 单元测试和性能测试

开发程序其中很重要的一点是测试，我们如何保证代码的质量，如何保证每个函数是可运行，运行结果是正确的，又如何保证写出来的代码性能是好的，我们知道单元测试的重点在于发现程序设计或实现的逻辑错误，使问题及早暴露，便于问题的定位解决，而性能测试的重点在于发现程序设计上的一些问题，让线上的程序能够在高并发的情况下还能保持稳定。本小节将带着这一连串的问题来讲解Go语言中如何来实现单元测试和性能测试。Go语言中...

2018-05-30 17:21:42 2345

原创 golang-sync包介绍

一、lockMutex互斥锁,也是全局锁；Lock()加锁，Unlock()解锁.func main() { var l *sync.Mutex l = new(sync.Mutex) l.Lock() defer l.Unlock() fmt.Println("1")}线程安全maptype SafeStringMap struct { sync.RWMutex M ma...

2018-05-30 16:09:06 973

原创 golang-字符串拼接性能对比

下面代码，分别比较了 fmt.Sprintf，string +，strings.Join，bytes.Buffer，方法是循环若干次比较总时间。性能由高到低依次是(bytes.Buffer) > (string +) > (fmt.Sprintf) > strings.Join测试代码如下：package mainimport ( "bytes" "fmt"...

2018-05-22 17:00:14 4524

转载解决spark中遇到的数据倾斜问题

一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。二. 数据倾斜的原因常见于各种shuffle操作，例如reduceByKey,groupByKey,join等操作。数据问题key本身分布不均匀(包括大量的key为空)key的设置不合理spark使用问题shuffle时的并发度不够计算方式有误三. 数据倾斜的后果spark中一个s...

2018-04-28 12:11:13 711

转载 Spark排错与优化

https://blog.csdn.net/lsshlsw/article/details/49155087一. 运维1. Master挂掉,standby重启也失效Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是master会读取每个task的event log日志去生成spark ui，内存不足自然会OOM，可以在master的运行日志中看到，通过HA启动的mas...

2018-04-28 11:18:50 995

转载 SSH 远程执行任务

SSH 是 Linux 下进行远程连接的基本工具，但是如果仅仅用它来登录那可是太浪费啦！SSH 命令可是完成远程操作的神器啊，借助它我们可以把很多的远程操作自动化掉！下面就对 SSH 的远程操作功能进行一个小小的总结。远程执行命令如果我们要查看一下某台主机的磁盘使用情况，是不是必须要登录到目标主机上才能执行 df 命令呢？当然不是的，我们可以使用 ssh 命令在远程的主机上执行 df 命令，然后直...

2018-04-23 21:03:40 252

转载 Go语言并发编程总结

微信公众号：Golang语言社区如有问题或建议，请公众号留言或者微信群、QQ群提问Golang :不要通过共享内存来通信，而应该通过通信来共享内存。这句风靡在Go社区的话,说的就是 goroutine中的 channel …….他在go并发编程中充当着类型安全的管道作用。1、通过golang中的 goroutine 与sync.Mutex进行并发同步import( "fmt" "...

2018-03-31 21:43:40 303

转载 MapReduce理解-深入理解MapReduce

前面的几篇博客主要介绍了Hadoop的存储HDFS，接下来几篇博客主要介绍Hadoop的计算框架MapReduce。本片博客主要讲解MapReduce框架的具体执行流程，以及shuffle过程，当然这方面的技术博客已经特别多而且都写得很优秀，我写本篇博客之前也有过相关阅读，受益匪浅。对一些博客和资料的参考都会才博客下方参考资料中列出。MapReduce理解MapRedeuce，我们可以把它分开来理...

2018-03-15 21:09:02 689

转载 [解决]Spark集群HA无法正常启动的问题

Spark集群HA无法正常启动的问题，master节点正常情况的状态为ALIVE与STANDBY，使用HA后通过zookeeper集群来确定master的ALIVE与STANDBY。今天，出现master节点一直处于RECOVERING，处理恢复状态，却不能正常启动。根据以往hadoop集群的经验，应该是zk管理master节点的问题解决方案为进行zk的客户端./zkCli.sh 查看目录ls ...

2018-03-13 21:59:15 1511

转载 Spark支持三种分布式部署方式

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算框架，比如MapReduce，公用一...

2018-03-12 00:02:59 5957 1

转载【性能优化】Hive优化

1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗...

2018-03-07 22:27:09 231

原创 mapreduce 实现内连接，左连接，右连接，全连接，反连接

数据集user(id name)用户表1 user12 user23 user34 user45 user56 user6post(userid postid postname)帖子表1 1 post11 2 post22 3 post34 4 post45 5 post58 6 post68 7 post78 8 post8package com.test;imp...

2018-03-06 16:50:11 418

转载图解SQL的Join

原文地址：http://coolshell.cn/articles/3463.html对于SQL的Join，在学习起来可能是比较乱的。我们知道，SQL的Join语法有很多inner的，有outer的，有left的，有时候，对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章（实在不清楚为什么Coding Horror也被墙）通过文氏图 Venn diagr...

2018-03-06 16:39:17 157

转载时间序列数据的存储和计算 - 概述

转载：https://yq.aliyun.com/articles/104243摘要：什么是时间序列数据什么是时间序列（Time Series，以下简称时序）数据？从定义上来说，就是一串按时间维度索引的数据。用描述性的语言来解释什么是时序数据，简单的说，就是这类数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值。什么是时间序列数据什么是时间序列（Time Series，以...

2018-03-05 11:34:47 7804

原创 PIP源使用国内镜像，提升下载速度和安装成功率

国内源（新版ubuntu要求使用https源，要注意。）：清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/豆瓣：http://pypi.douban.com/simple/还有一些别的...

2018-03-02 14:27:04 1103

转载 hive udf开发超详细手把手教程

http://blog.csdn.net/bitcarmanlee/article/details/51249260Hive中，除了提供丰富的内置函数（见[一起学Hive]之二–Hive函数大全-完整版）之外，还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式，一个是继承org.apache.hadoop.hive.ql.exec.UDF，另一个是继承org.apache...

2018-02-28 23:00:50 1642

原创 golang 如何判断变量的类型

方法一package mainimport ( "fmt")func main() { v1 := "123456" v2 := 12 fmt.Printf("v1 type:%T\n", v1) fmt.Printf("v2 type:%T\n", v2)}123456789101112131415output:...

2018-02-24 15:12:24 1066

转载一篇文章搞定面试中的二叉树

2018-02-07 IOExceptioner 算法与数据结构来自：杨守乐（微信号：study_tech）作者：IOExceptioner链接：https://www.jianshu.com/p/0190985635eb在上一篇介绍二叉树（ Android面试题算法之二叉树、红黑树详细分析，看了都说好），没看的读者建议先去了解了解，接下来再给

2018-02-07 20:47:08 406

转载 Elasticsearch 5.4 Indices(索引) API

http://blog.csdn.net/napoay/article/details/73251965前言一索引管理1 创建索引2 删除索引3 查看索引信息4 索引是否存在5 关闭打开索引6 索引收缩7 翻滚索引二mapping管理1 设置mapping2 查看mapping3 获取字段mapping4 类型是否存在三别名管理1 索引别名设置四索引配置

2018-01-24 21:10:14 519

转载 Elasticsearch 5.4 Mapping详解

http://blog.csdn.net/napoay/article/details/73100110前言一Field datatype字段数据类型1string类型2 text类型3 keyword类型4 数字类型5 Object类型6 date类型7 Array类型8 binary类型9 ip类型10 range类型11 nested类型12token_count类型13 geo

2018-01-24 21:07:39 309

转载 Spark内存管理详解（上）——内存分配

本文最初由IBM developerWorks中国网站发表，其链接为Apache Spark内存管理详解在这里，正文内容分为上下两篇来阐述，下一篇见《Spark内存管理详解（下）——内存管理》Spark内存管理详解（上）——内存分配 1. 堆内和堆外内存 2. 内存空间分配Spark内存管理详解（下）——内存管理 3. 存储内存管理 4. 执行内存管理引言Spark作为

2018-01-05 19:16:13 4320

转载 Spark 内存管理详解

转载：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.htmlSpark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能

2018-01-05 19:14:35 345

转载 Java编程思想重点笔记（Java开发必看）

转载:http://blog.csdn.net/lanxuezaipiao/article/details/41822683Java编程思想，Java学习必读经典，不管是初学者还是大牛都值得一读，这里总结书中的重点知识，这些知识不仅经常出现在各大知名公司的笔试面试过程中，而且在大型项目开发中也是常用的知识，既有简单的概念理解题（比如is-a关系和has-a关系的区别），也有深入的涉及RTT

2018-01-03 20:18:23 226

numpy.exe、scipy.exe

空空如也