自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(312)
  • 资源 (9)
  • 收藏
  • 关注

转载 zk Leader选举

 Leader选举算法分析接下来我们就一起深入Leader选举算法,看看Leader选举的技术内幕。进入Leader选举当ZooKeeper集群中的一台服务器出现以下两种情况之一时,就会开始进入Leader选举。1、服务器初始化启动。2、服务器运行期间无法和Leader保持连接。而当一台机器进入Leader选举流程时,当前集群也可能会处于以下两种状态。1、集群中本来就巳经存在一个Leader。2、...

2018-02-19 19:45:33 366

转载 zk复习笔记2

案例package com.secbro.learn.curator;import org.apache.curator.RetryPolicy;import org.apache.curator.framework.CuratorFramework;import org.apache.curator.framework.CuratorFrameworkFactory;import or...

2018-02-17 19:23:21 163

转载 zk复习笔记1

节点类型持久节点(PERSISTENT) 持久顺序节点(PERSISTENT_SEQUENTIAL)临时节点(EPHEMERAL) 临时顺序节点(EPHEMERAL_SEQUENTIAL)create -e 临时 -s 顺序aclCREATE:表示创建子节点的权限READ:表示获取节点数据和子节点列表的权限WRITE:表示更新节点数据的权限DELETE:表示删除子节点的权限ADMIN:表示设置节点...

2018-02-17 19:14:48 197

转载 jvm复习笔记1

1;类加载 在java代码中,类型的加载,链接与初始化过程都是在程序运行奇迹完成的2;jvm与程序的生命周期执行 system.exit() ,正常结束,遇到异常,系统出现错误导致进行终止3;类的加载,链接与初始化加载:查找并加载类的二进制数据连接: 验证:确保被加载的类的争取性        准备:为类的静态变量分配内存,并将其初始化为默认值        解析:把类中的符号引用转换为直接引用初...

2018-02-10 12:01:05 152

原创 坚持下

写博客不管是原创,还是转载 ,只是给自己一个坚持学习的约束 ,假设给自己定下目标5篇/月 ,即使转载 ,心里也会想着找些有价值的博文转载 ,就会不自觉地看帖子,记录下来 ,这就算是坚持学习了.18年2月开始新的征程,越来越浮躁,静下心来,写代码虽然是死工资,但高一点的死工资也比低的强啊 ,哎

2018-02-05 18:06:58 167

转载 查看修复HDFS中丢失的块

检测缺失块1 hdfs fsck -list-corruptfileblocks1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica查看上面某一个文件的情况1 hdfs fsck /path/to/corrupt/file -locations -blocks -files解决方法如果文件不重

2017-05-11 16:14:22 2774

转载 HDFS文件写入与读取

HDFS文件写入与读写副本(3个)选择策略说明:1. 若client为DataNode节点,那存储block时,规则为:副本1,同client的节点上;副本2,不同机架节点上;副本3,同第二个副本机架的另一个节点上;其他副本随机挑选。2. 若client不为DataNode节点,那存储block时,规则为:副本1,随机选择一个节点上;副本2,不同副本1,

2017-05-03 15:05:10 4255

转载 CDH-LZO配置

下载和CDH版本对应的hadoop-lzo版本如下: 下载地址:http://archive.cloudera.com/gplextras5/parcels/需要下载如下三个文件:GPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcelGPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcel

2017-04-27 18:57:39 1145

转载 Spark Streaming 数据产生与导入相关的内存分析及优化

http://spark.apache.org/docs/latest/streaming-programming-guide.html数据接受流程启动Spark Streaming(后续缩写为SS)后,SS 会选择一台Executor 启动ReceiverSupervisor,并且标记为Active状态。接着按如下步骤处理:ReceiverSupe

2017-04-26 17:26:54 500

转载 ElasticSearch 的 聚合(Aggregations)

Elasticsearch有一个功能叫做 聚合(aggregations) ,它允许你在数据上生成复杂的分析统计。它很像SQL中的 GROUP BY 但是功能更强大。Aggregations种类分为:Metrics, Metrics 是简单的对过滤出来的数据集进行avg,max等操作,是一个单一的数值。Bucket, Bucket 你则可以理解为将过滤出来的数据集按条件分成多个

2017-04-24 15:36:06 13835

转载 图解Elasticsearch中的_source、_all、store和index属性

Elasticsearch中有几个关键属性容易混淆,很多人搞不清楚_source字段里存储的是什么?store属性的true或false和_source字段有什么关系?store属性设置为true和_all有什么关系?index属性又起到什么作用?什么时候设置store属性为true?什么时候应该开启_all字段?本文通过图解的方式,深入理解Elasticsearch中的_source、_all、

2017-04-24 15:31:15 1012

转载 剖析Elasticsearch集群系列之三:近实时搜索、深层分页问题和搜索相关性权衡之道

转载:http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part03近实时搜索虽然Elasticsearch中的变更不能立即可见,它还是提供了一个近实时的搜索引擎。如前一篇中所述,提交Lucene的变更到磁盘是一个代价昂贵的操作。为了避免在文档对查询依然有效的时候,提交变更到磁盘,Elastic

2017-04-22 17:51:09 432

转载 剖析Elasticsearch集群系列之二:分布式的三个C、translog和Lucene段

转载:http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part02共识——裂脑问题及法定票数的重要性共识是分布式系统的一项基本挑战。它要求系统中的所有进程/节点必须对给定数据的值/状态达成共识。已经有很多共识算法诸如Raft、Paxos等,从数学上的证明了是行得通的。但是,Elasticsea

2017-04-22 17:45:37 441

转载 剖析Elasticsearch集群系列之一:Elasticsearch的存储模型和读写操作

转载:http://www.infoq.com/cn/articles/analysis-of-elasticsearch-cluster-part011.辨析Elasticsearch的索引与Lucene的索引Elasticsearch中的索引是组织数据的逻辑空间(就好比数据库)。1个Elasticsearch的索引有1个或者多个分片(默认是5个)。分片对应实际存储数据的Luce

2017-04-22 17:35:46 1381

转载 Spark编写UDAF自定义函数

package main.scalaimport org.apache.spark.SparkContextimport org.apache.spark.SparkConfimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.Rowimport org.apache.spark.sql.types.S

2017-04-18 18:03:15 1700

转载 查缺补漏--性能troubleshooting

调节reduce端缓冲区大小避免OOM异常  1.1 为什么要调节reduce端缓冲区大小    对于map端不断产生的数据,reduce端会不断拉取一部分数据放入到缓冲区,进行聚合处理;    当map端数据特别大时,reduce端的task拉取数据是可能全部的缓冲区都满了,此时进行reduce聚合处理时创建大量的对象,导致OOM异常;  1.2 如何调节reduce端缓冲区大小    当由于以上

2017-04-18 16:44:47 336

转载 查缺补漏--性能算子

MapPartitions提升Map类操作性能spark中,最基本的原则,就是每个task处理一个RDD的partition。 MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有的p

2017-04-17 17:01:05 352

转载 查缺补漏--性能shuffle

合并map端输出文件第一个stage,每个task,都会给第二个stage的每个task创建一份map端的输出文件第二个stage,每个task,会到各个节点上面去,拉取第一个stage每个task输出的,属于自己的那一份文件。 题来了:默认的这种shuffle行为,对性能有什么样的恶劣影响呢?实际生产环境的条件: 100个节点(每个节点一个executor):100个executor 每个e

2017-04-17 16:26:49 306

转载 查缺补漏--性能JVM

JVM调优之原理概述以及降低cache操作的内存占比 每一次放对象的时候,都是放入eden区域,和其中一个survivor区域;另外一个survivor区域是空闲的。当eden区域和一个survivor区域放满了以后(spark运行过程中,产生的对象实在太多了),就会触发minor gc,小型垃圾回收。把不再使用的对象,从内存中清空,给后面新创建的对象腾出来点儿地方。清理掉了不再使用的对象之后,那

2017-04-13 21:00:52 357

转载 查缺补漏--性能资源

1:资源

2017-04-13 19:01:09 545

转载 基于Kafka 0.9版本 使用ACL进行权限控制

一.官网内容kafka附带一个可插拔的认证,并使用zookeeper来存储所有的acl。kafka的acl在一般格式定义"Principal P is [Allowed/Denied] Operation O From Host H On Resource R”,你可以阅读更多关于KIP-11的结构,为了添加,删除或列表,你可以使用kafka认证CLI。默认情况下,如果资源

2017-04-12 17:22:27 924

转载 CDH5.X安装配置kerberos认证过程

https://www.cloudera.com/documentation/enterprise/latest/topics/cm_sg_kdc_def_domain_s2.html 安装过程(需要如下8个步骤)Configuring a Kerberos 5 ServerWhen setting up Kerberos, install the KDC first. I

2017-04-11 14:51:27 1242

转载 Hive 中的复合数据结构简介以及一些函数的用法说明

目前 hive 支持的复合数据类型有以下几种:arrays: ARRAY (Note: negative values and non-constant expressions are allowed as of Hive 0.14.) maps: MAP1、Array的使用创建数据库表,以array作为数据类型create table person(name string,work_locat

2017-04-10 15:14:29 773

转载 ELK logstash 处理多行事件(25th)

有些日志是分多行输出的,为了能正确的处理这些多行的事件,logstash必须哪些行是单一事件的一部分。多行事件处理是比较复杂的,需依赖正确的事件顺序。最佳方法是尽早的在管道中处理以保证日志有序。这就是本文要说到的logstash管道multiline codec,专门来处理合并多行事件的。multiline插件最重要的方面: pattern 选项指定一个正则表达式。 事件匹配指

2017-04-10 11:11:28 1498 1

转载 内存池设计与实现

1. 内存池设计1.1 目的在给定的内存buffer上建立内存管理机制,根据用户需求从该buffer上分配内存或者将已经分配的内存释放回buffer中。1.2 要求尽量减少内存碎片,平均效率高于C语言的malloc和free。1.3 设计思路将buffer分为四部分,第1部分是mem_pool结构体;第2部分是内存映射表;第3部分是内存chunk结构

2017-04-05 14:44:22 812

转载 ElasticSearch 5.0.0 安装部署常见错误或问题

问题一:[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to install syscall filter:Java.lang.UnsupportedOperationException: seccomp unavailable: requires kernel 3.5+ with CON

2017-04-05 11:53:30 348

转载 在Spark上通过BulkLoad快速将海量数据导入Hbase

使用org.apache.hadoop.hbase.client.Put来写数据使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中,但是和Bulk加载相比效率低下,仅仅作为对比。import org.apache.spark._import org.apache.spark.rdd.NewHadoopRDDimport org.apache

2017-03-31 18:46:54 8211 5

转载 Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

原创文章,转载请务必将下面这段话置于文章开头处。本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前

2017-03-31 18:31:30 327

转载 Scala中的协变,逆变,上界,下界等

目录 [−]Java中的协变和逆变Scala的协变Scala的逆变下界lower bounds上界upper bounds综合协变,逆变,上界,下界View Bound Context Bound参考文档Scala中的协变逆变和Java中的协变逆变不一样,看起来更复杂。 本文对Scala中的这些概念做一总结。首先看几个

2017-03-30 10:20:12 434

转载 堆外内存(off-heap)、堆内内存(on-heap)

堆Heap是内存中动态分配对象存在的地方。如果使用new一个对象,它就被分配在堆内存上。这是相对于Stack,如果你有一个局部变量则它是位于Stack栈内存空间。一般情况下,Java中分配的非空对象都是由Java虚拟机的垃圾收集器管理的,也称为堆内内存(on-heap memory)。虚拟机会定期对垃圾内存进行回收,在某些特定的时间点,它会进行一次彻底的回收(full gc)。彻底

2017-03-29 18:22:44 983

转载 oracle递归查询(查询条件ID下得所有子集)

一、CREATE TABLE TBL_TEST   (   ID NUMBER,   NAME VARCHAR2(100 BYTE),   PID NUMBER DEFAULT 0   )   INSERT INTO TBL_TEST(ID,NAME,PID) VALUES(‘1’,’10’,’0’);

2017-03-02 21:12:40 2225

原创 shell 小例

#!/bin/shinsert_mysql(){passwd='passswrod'/usr/local/bin/expect <<-EOFset time 30spawn ssh -p22 root@192.168.1.1expect {"*yes/no" { send "yes\r"; exp_continue }"*password:" { send "$passwd\r"

2016-12-28 11:09:25 514

转载 linux shell命令行选项与参数用法详解

在bash中,可以用以下三种方式来处理命令行参数,每种方式都有自己的应用场景。 1,直接处理,依次对1,1,2,…,$n进行解析,分别手工处理; 2,getopts来处理,单个字符选项的情况(如:-n 10 -f file.txt等选项); 3,getopt,可以处理单个字符选项,也可以处理长选项long-option(如:–prefix=/home等)。 总结:小脚本手工处理即可,geto

2016-12-28 11:03:44 7105

转载 linux下expect环境安装以及简单脚本测试

expect是交互性很强的脚本语言,可以帮助运维人员实现批量管理成千上百台服务器操作,很实用! expect依赖于tcl,而linux系统里一般不自带安装tcl,所以需要手动安装http://download.chinaunix.net/download/0003000/2845.shtmltcl版本 8.4.19http://sourceforge.net/projects/tcl/files/

2016-12-26 17:30:15 558

转载 XGBoost模型调优

XGBoost模型调优加载要用的库In [1]:import pandas as pdimport numpy as npimport xgboost as xgbfrom xgboost.sklearn import XGBClassifierfrom sklearn import cross_validatio

2016-12-16 17:29:44 3349 1

转载 特征工程小案例

特征工程小案例¶Kaggle上有这样一个比赛:城市自行车共享系统使用状况。提供的数据为2年内按小时做的自行车租赁数据,其中训练集由每个月的前19天组成,测试集由20号之后的时间组成。In [29]:#先把数据读进来import pandas as pddata = pd.read_csv('kaggle_bike_competition_trai

2016-12-16 15:42:00 3137

转载 特征工程

特征工程数据集来源于Data Hackathon 3.x,所有的特征处理也只做最基本的参考,可自行尝试更多的特征工程工作,参考github里Feature engineering和Kaggle Titanic的案例。加载需要的库:In [1]:import pandas as pdimport numpy as np

2016-12-16 10:36:04 1261

转载 逻辑回归应用之Kaggle泰坦尼克之灾

作者: 寒小阳 时间:2015年11月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 声明:版权所有,转载请注明出处,谢谢。1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完

2016-12-15 17:00:22 1000

转载 Scala--特质

http://www.cnblogs.com/one–way/p/5830903.html一、为什么没有多重继承Java不允许多重继承,类只能继承一个超类,可以实现任意数量的接口。如何继承这两个抽象基类?Scala提供“特质”而非接口;特质可以同时抽象方法和具体方法。类可以实现多个特质。二、当做接口使用的特质trait Logger{ def log(msg: String) } cl

2016-12-15 16:52:56 310

原创 scala语法 基础4

object Test {def main(args: Array[String]) { // val xs = 3 :: 6 :: 12 :: Nil // val s =xs match { // case List(a, b) => a * b // case List(a, b, c) => a + b + c // case _ =>

2016-11-28 17:34:24 415

idea 使用快捷键.docx

idea 使用快捷键.docx

2016-01-22

CentOS_Ganglia安装.doc

亲测 安装成功 ,CentOS_Ganglia安装.doc,CentOS_Ganglia安装.doc

2016-01-22

matplotlib-1.4.0.win-amd64-py2.7.exe

matplotlib-1.4.0.win-amd64-py2.7.exe

2016-01-22

numpy-MKL-1.8.0.win-amd64-py2.7.exe

win7完美运行,win10出问题的话python path需要自己手配,而且要管理员权限运行

2016-01-22

KafkaOffsetMonitor-assembly-0.2.0

亲测可用哦 java -jar KafkaOffsetMonitor-assembly-0.2.0.jar \ com.quantifind.kafka.offsetapp.OffsetGetterWeb \ --zk xxx \ --port 8086 \ --refresh 10.seconds \ --retain 7.days &

2016-01-22

ext-2.2.zip

亲测可用 ext-2.2.zip,用于oozie安装的插件,

2016-01-22

storm实时代码

storm -kafka 存储到hbase中

2015-04-15

storm 代码

Storm Real-time Processing Cookbook

2014-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除