- 博客(312)
- 资源 (9)
- 收藏
- 关注
转载 zk Leader选举
Leader选举算法分析接下来我们就一起深入Leader选举算法,看看Leader选举的技术内幕。进入Leader选举当ZooKeeper集群中的一台服务器出现以下两种情况之一时,就会开始进入Leader选举。1、服务器初始化启动。2、服务器运行期间无法和Leader保持连接。而当一台机器进入Leader选举流程时,当前集群也可能会处于以下两种状态。1、集群中本来就巳经存在一个Leader。2、...
2018-02-19 19:45:33 366
转载 zk复习笔记2
案例package com.secbro.learn.curator;import org.apache.curator.RetryPolicy;import org.apache.curator.framework.CuratorFramework;import org.apache.curator.framework.CuratorFrameworkFactory;import or...
2018-02-17 19:23:21 163
转载 zk复习笔记1
节点类型持久节点(PERSISTENT) 持久顺序节点(PERSISTENT_SEQUENTIAL)临时节点(EPHEMERAL) 临时顺序节点(EPHEMERAL_SEQUENTIAL)create -e 临时 -s 顺序aclCREATE:表示创建子节点的权限READ:表示获取节点数据和子节点列表的权限WRITE:表示更新节点数据的权限DELETE:表示删除子节点的权限ADMIN:表示设置节点...
2018-02-17 19:14:48 197
转载 jvm复习笔记1
1;类加载 在java代码中,类型的加载,链接与初始化过程都是在程序运行奇迹完成的2;jvm与程序的生命周期执行 system.exit() ,正常结束,遇到异常,系统出现错误导致进行终止3;类的加载,链接与初始化加载:查找并加载类的二进制数据连接: 验证:确保被加载的类的争取性 准备:为类的静态变量分配内存,并将其初始化为默认值 解析:把类中的符号引用转换为直接引用初...
2018-02-10 12:01:05 152
原创 坚持下
写博客不管是原创,还是转载 ,只是给自己一个坚持学习的约束 ,假设给自己定下目标5篇/月 ,即使转载 ,心里也会想着找些有价值的博文转载 ,就会不自觉地看帖子,记录下来 ,这就算是坚持学习了.18年2月开始新的征程,越来越浮躁,静下心来,写代码虽然是死工资,但高一点的死工资也比低的强啊 ,哎
2018-02-05 18:06:58 167
转载 查看修复HDFS中丢失的块
检测缺失块1 hdfs fsck -list-corruptfileblocks1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica查看上面某一个文件的情况1 hdfs fsck /path/to/corrupt/file -locations -blocks -files解决方法如果文件不重
2017-05-11 16:14:22 2774
转载 HDFS文件写入与读取
HDFS文件写入与读写副本(3个)选择策略说明:1. 若client为DataNode节点,那存储block时,规则为:副本1,同client的节点上;副本2,不同机架节点上;副本3,同第二个副本机架的另一个节点上;其他副本随机挑选。2. 若client不为DataNode节点,那存储block时,规则为:副本1,随机选择一个节点上;副本2,不同副本1,
2017-05-03 15:05:10 4255
转载 CDH-LZO配置
下载和CDH版本对应的hadoop-lzo版本如下: 下载地址:http://archive.cloudera.com/gplextras5/parcels/需要下载如下三个文件:GPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcelGPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcel
2017-04-27 18:57:39 1145
转载 Spark Streaming 数据产生与导入相关的内存分析及优化
http://spark.apache.org/docs/latest/streaming-programming-guide.html数据接受流程启动Spark Streaming(后续缩写为SS)后,SS 会选择一台Executor 启动ReceiverSupervisor,并且标记为Active状态。接着按如下步骤处理:ReceiverSupe
2017-04-26 17:26:54 500
转载 ElasticSearch 的 聚合(Aggregations)
Elasticsearch有一个功能叫做 聚合(aggregations) ,它允许你在数据上生成复杂的分析统计。它很像SQL中的 GROUP BY 但是功能更强大。Aggregations种类分为:Metrics, Metrics 是简单的对过滤出来的数据集进行avg,max等操作,是一个单一的数值。Bucket, Bucket 你则可以理解为将过滤出来的数据集按条件分成多个
2017-04-24 15:36:06 13835
转载 图解Elasticsearch中的_source、_all、store和index属性
Elasticsearch中有几个关键属性容易混淆,很多人搞不清楚_source字段里存储的是什么?store属性的true或false和_source字段有什么关系?store属性设置为true和_all有什么关系?index属性又起到什么作用?什么时候设置store属性为true?什么时候应该开启_all字段?本文通过图解的方式,深入理解Elasticsearch中的_source、_all、
2017-04-24 15:31:15 1012
转载 剖析Elasticsearch集群系列之三:近实时搜索、深层分页问题和搜索相关性权衡之道
转载:http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part03近实时搜索虽然Elasticsearch中的变更不能立即可见,它还是提供了一个近实时的搜索引擎。如前一篇中所述,提交Lucene的变更到磁盘是一个代价昂贵的操作。为了避免在文档对查询依然有效的时候,提交变更到磁盘,Elastic
2017-04-22 17:51:09 432
转载 剖析Elasticsearch集群系列之二:分布式的三个C、translog和Lucene段
转载:http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part02共识——裂脑问题及法定票数的重要性共识是分布式系统的一项基本挑战。它要求系统中的所有进程/节点必须对给定数据的值/状态达成共识。已经有很多共识算法诸如Raft、Paxos等,从数学上的证明了是行得通的。但是,Elasticsea
2017-04-22 17:45:37 441
转载 剖析Elasticsearch集群系列之一:Elasticsearch的存储模型和读写操作
转载:http://www.infoq.com/cn/articles/analysis-of-elasticsearch-cluster-part011.辨析Elasticsearch的索引与Lucene的索引Elasticsearch中的索引是组织数据的逻辑空间(就好比数据库)。1个Elasticsearch的索引有1个或者多个分片(默认是5个)。分片对应实际存储数据的Luce
2017-04-22 17:35:46 1381
转载 Spark编写UDAF自定义函数
package main.scalaimport org.apache.spark.SparkContextimport org.apache.spark.SparkConfimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.Rowimport org.apache.spark.sql.types.S
2017-04-18 18:03:15 1700
转载 查缺补漏--性能troubleshooting
调节reduce端缓冲区大小避免OOM异常 1.1 为什么要调节reduce端缓冲区大小 对于map端不断产生的数据,reduce端会不断拉取一部分数据放入到缓冲区,进行聚合处理; 当map端数据特别大时,reduce端的task拉取数据是可能全部的缓冲区都满了,此时进行reduce聚合处理时创建大量的对象,导致OOM异常; 1.2 如何调节reduce端缓冲区大小 当由于以上
2017-04-18 16:44:47 336
转载 查缺补漏--性能算子
MapPartitions提升Map类操作性能spark中,最基本的原则,就是每个task处理一个RDD的partition。 MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有的p
2017-04-17 17:01:05 352
转载 查缺补漏--性能shuffle
合并map端输出文件第一个stage,每个task,都会给第二个stage的每个task创建一份map端的输出文件第二个stage,每个task,会到各个节点上面去,拉取第一个stage每个task输出的,属于自己的那一份文件。 题来了:默认的这种shuffle行为,对性能有什么样的恶劣影响呢?实际生产环境的条件: 100个节点(每个节点一个executor):100个executor 每个e
2017-04-17 16:26:49 306
转载 查缺补漏--性能JVM
JVM调优之原理概述以及降低cache操作的内存占比 每一次放对象的时候,都是放入eden区域,和其中一个survivor区域;另外一个survivor区域是空闲的。当eden区域和一个survivor区域放满了以后(spark运行过程中,产生的对象实在太多了),就会触发minor gc,小型垃圾回收。把不再使用的对象,从内存中清空,给后面新创建的对象腾出来点儿地方。清理掉了不再使用的对象之后,那
2017-04-13 21:00:52 357
转载 基于Kafka 0.9版本 使用ACL进行权限控制
一.官网内容kafka附带一个可插拔的认证,并使用zookeeper来存储所有的acl。kafka的acl在一般格式定义"Principal P is [Allowed/Denied] Operation O From Host H On Resource R”,你可以阅读更多关于KIP-11的结构,为了添加,删除或列表,你可以使用kafka认证CLI。默认情况下,如果资源
2017-04-12 17:22:27 924
转载 CDH5.X安装配置kerberos认证过程
https://www.cloudera.com/documentation/enterprise/latest/topics/cm_sg_kdc_def_domain_s2.html 安装过程(需要如下8个步骤)Configuring a Kerberos 5 ServerWhen setting up Kerberos, install the KDC first. I
2017-04-11 14:51:27 1242
转载 Hive 中的复合数据结构简介以及一些函数的用法说明
目前 hive 支持的复合数据类型有以下几种:arrays: ARRAY (Note: negative values and non-constant expressions are allowed as of Hive 0.14.) maps: MAP1、Array的使用创建数据库表,以array作为数据类型create table person(name string,work_locat
2017-04-10 15:14:29 773
转载 ELK logstash 处理多行事件(25th)
有些日志是分多行输出的,为了能正确的处理这些多行的事件,logstash必须哪些行是单一事件的一部分。多行事件处理是比较复杂的,需依赖正确的事件顺序。最佳方法是尽早的在管道中处理以保证日志有序。这就是本文要说到的logstash管道multiline codec,专门来处理合并多行事件的。multiline插件最重要的方面: pattern 选项指定一个正则表达式。 事件匹配指
2017-04-10 11:11:28 1498 1
转载 内存池设计与实现
1. 内存池设计1.1 目的在给定的内存buffer上建立内存管理机制,根据用户需求从该buffer上分配内存或者将已经分配的内存释放回buffer中。1.2 要求尽量减少内存碎片,平均效率高于C语言的malloc和free。1.3 设计思路将buffer分为四部分,第1部分是mem_pool结构体;第2部分是内存映射表;第3部分是内存chunk结构
2017-04-05 14:44:22 812
转载 ElasticSearch 5.0.0 安装部署常见错误或问题
问题一:[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to install syscall filter:Java.lang.UnsupportedOperationException: seccomp unavailable: requires kernel 3.5+ with CON
2017-04-05 11:53:30 348
转载 在Spark上通过BulkLoad快速将海量数据导入Hbase
使用org.apache.hadoop.hbase.client.Put来写数据使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中,但是和Bulk加载相比效率低下,仅仅作为对比。import org.apache.spark._import org.apache.spark.rdd.NewHadoopRDDimport org.apache
2017-03-31 18:46:54 8211 5
转载 Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
原创文章,转载请务必将下面这段话置于文章开头处。本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前
2017-03-31 18:31:30 327
转载 Scala中的协变,逆变,上界,下界等
目录 [−]Java中的协变和逆变Scala的协变Scala的逆变下界lower bounds上界upper bounds综合协变,逆变,上界,下界View Bound Context Bound参考文档Scala中的协变逆变和Java中的协变逆变不一样,看起来更复杂。 本文对Scala中的这些概念做一总结。首先看几个
2017-03-30 10:20:12 434
转载 堆外内存(off-heap)、堆内内存(on-heap)
堆Heap是内存中动态分配对象存在的地方。如果使用new一个对象,它就被分配在堆内存上。这是相对于Stack,如果你有一个局部变量则它是位于Stack栈内存空间。一般情况下,Java中分配的非空对象都是由Java虚拟机的垃圾收集器管理的,也称为堆内内存(on-heap memory)。虚拟机会定期对垃圾内存进行回收,在某些特定的时间点,它会进行一次彻底的回收(full gc)。彻底
2017-03-29 18:22:44 983
转载 oracle递归查询(查询条件ID下得所有子集)
一、CREATE TABLE TBL_TEST ( ID NUMBER, NAME VARCHAR2(100 BYTE), PID NUMBER DEFAULT 0 ) INSERT INTO TBL_TEST(ID,NAME,PID) VALUES(‘1’,’10’,’0’);
2017-03-02 21:12:40 2225
原创 shell 小例
#!/bin/shinsert_mysql(){passwd='passswrod'/usr/local/bin/expect <<-EOFset time 30spawn ssh -p22 root@192.168.1.1expect {"*yes/no" { send "yes\r"; exp_continue }"*password:" { send "$passwd\r"
2016-12-28 11:09:25 514
转载 linux shell命令行选项与参数用法详解
在bash中,可以用以下三种方式来处理命令行参数,每种方式都有自己的应用场景。 1,直接处理,依次对1,1,2,…,$n进行解析,分别手工处理; 2,getopts来处理,单个字符选项的情况(如:-n 10 -f file.txt等选项); 3,getopt,可以处理单个字符选项,也可以处理长选项long-option(如:–prefix=/home等)。 总结:小脚本手工处理即可,geto
2016-12-28 11:03:44 7105
转载 linux下expect环境安装以及简单脚本测试
expect是交互性很强的脚本语言,可以帮助运维人员实现批量管理成千上百台服务器操作,很实用! expect依赖于tcl,而linux系统里一般不自带安装tcl,所以需要手动安装http://download.chinaunix.net/download/0003000/2845.shtmltcl版本 8.4.19http://sourceforge.net/projects/tcl/files/
2016-12-26 17:30:15 558
转载 XGBoost模型调优
XGBoost模型调优加载要用的库In [1]:import pandas as pdimport numpy as npimport xgboost as xgbfrom xgboost.sklearn import XGBClassifierfrom sklearn import cross_validatio
2016-12-16 17:29:44 3349 1
转载 特征工程小案例
特征工程小案例¶Kaggle上有这样一个比赛:城市自行车共享系统使用状况。提供的数据为2年内按小时做的自行车租赁数据,其中训练集由每个月的前19天组成,测试集由20号之后的时间组成。In [29]:#先把数据读进来import pandas as pddata = pd.read_csv('kaggle_bike_competition_trai
2016-12-16 15:42:00 3137
转载 特征工程
特征工程数据集来源于Data Hackathon 3.x,所有的特征处理也只做最基本的参考,可自行尝试更多的特征工程工作,参考github里Feature engineering和Kaggle Titanic的案例。加载需要的库:In [1]:import pandas as pdimport numpy as np
2016-12-16 10:36:04 1261
转载 逻辑回归应用之Kaggle泰坦尼克之灾
作者: 寒小阳 时间:2015年11月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 声明:版权所有,转载请注明出处,谢谢。1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完
2016-12-15 17:00:22 1000
转载 Scala--特质
http://www.cnblogs.com/one–way/p/5830903.html一、为什么没有多重继承Java不允许多重继承,类只能继承一个超类,可以实现任意数量的接口。如何继承这两个抽象基类?Scala提供“特质”而非接口;特质可以同时抽象方法和具体方法。类可以实现多个特质。二、当做接口使用的特质trait Logger{ def log(msg: String) } cl
2016-12-15 16:52:56 310
原创 scala语法 基础4
object Test {def main(args: Array[String]) { // val xs = 3 :: 6 :: 12 :: Nil // val s =xs match { // case List(a, b) => a * b // case List(a, b, c) => a + b + c // case _ =>
2016-11-28 17:34:24 415
KafkaOffsetMonitor-assembly-0.2.0
2016-01-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人