mllhxn-CSDN博客

转载 zk Leader选举

Leader选举算法分析接下来我们就一起深入Leader选举算法，看看Leader选举的技术内幕。进入Leader选举当ZooKeeper集群中的一台服务器出现以下两种情况之一时，就会开始进入Leader选举。1、服务器初始化启动。2、服务器运行期间无法和Leader保持连接。而当一台机器进入Leader选举流程时，当前集群也可能会处于以下两种状态。1、集群中本来就巳经存在一个Leader。2、...

2018-02-19 19:45:33 366

转载 zk复习笔记2

案例package com.secbro.learn.curator;import org.apache.curator.RetryPolicy;import org.apache.curator.framework.CuratorFramework;import org.apache.curator.framework.CuratorFrameworkFactory;import or...

2018-02-17 19:23:21 163

转载 zk复习笔记1

节点类型持久节点（PERSISTENT）持久顺序节点（PERSISTENT_SEQUENTIAL）临时节点（EPHEMERAL）临时顺序节点（EPHEMERAL_SEQUENTIAL）create -e 临时 -s 顺序aclCREATE：表示创建子节点的权限READ：表示获取节点数据和子节点列表的权限WRITE：表示更新节点数据的权限DELETE：表示删除子节点的权限ADMIN：表示设置节点...

2018-02-17 19:14:48 197

转载 jvm复习笔记1

1;类加载在java代码中,类型的加载,链接与初始化过程都是在程序运行奇迹完成的2;jvm与程序的生命周期执行 system.exit() ,正常结束,遇到异常,系统出现错误导致进行终止3;类的加载,链接与初始化加载:查找并加载类的二进制数据连接: 验证:确保被加载的类的争取性准备:为类的静态变量分配内存,并将其初始化为默认值解析:把类中的符号引用转换为直接引用初...

2018-02-10 12:01:05 152

原创坚持下

写博客不管是原创,还是转载 ,只是给自己一个坚持学习的约束 ,假设给自己定下目标5篇/月 ,即使转载 ,心里也会想着找些有价值的博文转载 ,就会不自觉地看帖子,记录下来 ,这就算是坚持学习了.18年2月开始新的征程,越来越浮躁,静下心来,写代码虽然是死工资,但高一点的死工资也比低的强啊 ,哎

2018-02-05 18:06:58 167

转载查看修复HDFS中丢失的块

检测缺失块1 hdfs fsck -list-corruptfileblocks1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica查看上面某一个文件的情况1 hdfs fsck /path/to/corrupt/file -locations -blocks -files解决方法如果文件不重

2017-05-11 16:14:22 2774

转载 HDFS文件写入与读取

HDFS文件写入与读写副本（3个）选择策略说明：1. 若client为DataNode节点，那存储block时，规则为：副本1，同client的节点上；副本2，不同机架节点上；副本3，同第二个副本机架的另一个节点上；其他副本随机挑选。2. 若client不为DataNode节点，那存储block时，规则为：副本1，随机选择一个节点上；副本2，不同副本1，

2017-05-03 15:05:10 4255

转载 CDH-LZO配置

下载和CDH版本对应的hadoop-lzo版本如下：下载地址：http://archive.cloudera.com/gplextras5/parcels/需要下载如下三个文件：GPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcelGPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcel

2017-04-27 18:57:39 1145

转载 Spark Streaming 数据产生与导入相关的内存分析及优化

http://spark.apache.org/docs/latest/streaming-programming-guide.html数据接受流程启动Spark Streaming(后续缩写为SS)后，SS 会选择一台Executor 启动ReceiverSupervisor,并且标记为Active状态。接着按如下步骤处理：ReceiverSupe

2017-04-26 17:26:54 500

转载 ElasticSearch 的聚合（Aggregations）

Elasticsearch有一个功能叫做聚合(aggregations) ，它允许你在数据上生成复杂的分析统计。它很像SQL中的 GROUP BY 但是功能更强大。Aggregations种类分为:Metrics, Metrics 是简单的对过滤出来的数据集进行avg,max等操作，是一个单一的数值。Bucket, Bucket 你则可以理解为将过滤出来的数据集按条件分成多个

2017-04-24 15:36:06 13835

转载图解Elasticsearch中的_source、_all、store和index属性

Elasticsearch中有几个关键属性容易混淆，很多人搞不清楚_source字段里存储的是什么？store属性的true或false和_source字段有什么关系？store属性设置为true和_all有什么关系？index属性又起到什么作用？什么时候设置store属性为true？什么时候应该开启_all字段？本文通过图解的方式，深入理解Elasticsearch中的_source、_all、

2017-04-24 15:31:15 1012

转载剖析Elasticsearch集群系列之三：近实时搜索、深层分页问题和搜索相关性权衡之道

转载：http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part03近实时搜索虽然Elasticsearch中的变更不能立即可见，它还是提供了一个近实时的搜索引擎。如前一篇中所述，提交Lucene的变更到磁盘是一个代价昂贵的操作。为了避免在文档对查询依然有效的时候，提交变更到磁盘，Elastic

2017-04-22 17:51:09 432

转载剖析Elasticsearch集群系列之二：分布式的三个C、translog和Lucene段

转载：http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part02共识——裂脑问题及法定票数的重要性共识是分布式系统的一项基本挑战。它要求系统中的所有进程/节点必须对给定数据的值/状态达成共识。已经有很多共识算法诸如Raft、Paxos等，从数学上的证明了是行得通的。但是，Elasticsea

2017-04-22 17:45:37 441

转载剖析Elasticsearch集群系列之一：Elasticsearch的存储模型和读写操作

转载：http://www.infoq.com/cn/articles/analysis-of-elasticsearch-cluster-part011.辨析Elasticsearch的索引与Lucene的索引Elasticsearch中的索引是组织数据的逻辑空间(就好比数据库)。1个Elasticsearch的索引有1个或者多个分片(默认是5个)。分片对应实际存储数据的Luce

2017-04-22 17:35:46 1381

转载 Spark编写UDAF自定义函数

package main.scalaimport org.apache.spark.SparkContextimport org.apache.spark.SparkConfimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.Rowimport org.apache.spark.sql.types.S

2017-04-18 18:03:15 1700

转载查缺补漏--性能troubleshooting

调节reduce端缓冲区大小避免OOM异常　　1.1 为什么要调节reduce端缓冲区大小　　　　对于map端不断产生的数据，reduce端会不断拉取一部分数据放入到缓冲区，进行聚合处理；　　　　当map端数据特别大时，reduce端的task拉取数据是可能全部的缓冲区都满了，此时进行reduce聚合处理时创建大量的对象，导致OOM异常；　　1.2 如何调节reduce端缓冲区大小　　　　当由于以上

2017-04-18 16:44:47 336

转载查缺补漏--性能算子

MapPartitions提升Map类操作性能spark中，最基本的原则，就是每个task处理一个RDD的partition。 MapPartitions操作的优点：如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的p

2017-04-17 17:01:05 352

转载查缺补漏--性能shuffle

合并map端输出文件第一个stage，每个task，都会给第二个stage的每个task创建一份map端的输出文件第二个stage，每个task，会到各个节点上面去，拉取第一个stage每个task输出的，属于自己的那一份文件。题来了：默认的这种shuffle行为，对性能有什么样的恶劣影响呢？实际生产环境的条件： 100个节点（每个节点一个executor）：100个executor 每个e

2017-04-17 16:26:49 306

转载查缺补漏--性能JVM

JVM调优之原理概述以及降低cache操作的内存占比每一次放对象的时候，都是放入eden区域，和其中一个survivor区域；另外一个survivor区域是空闲的。当eden区域和一个survivor区域放满了以后（spark运行过程中，产生的对象实在太多了），就会触发minor gc，小型垃圾回收。把不再使用的对象，从内存中清空，给后面新创建的对象腾出来点儿地方。清理掉了不再使用的对象之后，那

2017-04-13 21:00:52 357

转载查缺补漏--性能资源

1:资源

2017-04-13 19:01:09 545

转载基于Kafka 0.9版本使用ACL进行权限控制

一.官网内容kafka附带一个可插拔的认证，并使用zookeeper来存储所有的acl。kafka的acl在一般格式定义"Principal P is [Allowed/Denied] Operation O From Host H On Resource R”，你可以阅读更多关于KIP-11的结构，为了添加，删除或列表，你可以使用kafka认证CLI。默认情况下，如果资源

2017-04-12 17:22:27 924

转载 CDH5.X安装配置kerberos认证过程

https://www.cloudera.com/documentation/enterprise/latest/topics/cm_sg_kdc_def_domain_s2.html 安装过程（需要如下8个步骤）Configuring a Kerberos 5 ServerWhen setting up Kerberos, install the KDC first. I

2017-04-11 14:51:27 1242

转载 Hive 中的复合数据结构简介以及一些函数的用法说明

目前 hive 支持的复合数据类型有以下几种：arrays: ARRAY (Note: negative values and non-constant expressions are allowed as of Hive 0.14.) maps: MAP1、Array的使用创建数据库表，以array作为数据类型create table person(name string,work_locat

2017-04-10 15:14:29 773

转载 ELK logstash 处理多行事件(25th)

有些日志是分多行输出的，为了能正确的处理这些多行的事件，logstash必须哪些行是单一事件的一部分。多行事件处理是比较复杂的，需依赖正确的事件顺序。最佳方法是尽早的在管道中处理以保证日志有序。这就是本文要说到的logstash管道multiline codec，专门来处理合并多行事件的。multiline插件最重要的方面： pattern 选项指定一个正则表达式。事件匹配指

2017-04-10 11:11:28 1498 1

转载内存池设计与实现

1. 内存池设计1.1 目的在给定的内存buffer上建立内存管理机制，根据用户需求从该buffer上分配内存或者将已经分配的内存释放回buffer中。1.2 要求尽量减少内存碎片，平均效率高于C语言的malloc和free。1.3 设计思路将buffer分为四部分，第1部分是mem_pool结构体；第2部分是内存映射表；第3部分是内存chunk结构

2017-04-05 14:44:22 812

转载 ElasticSearch 5.0.0 安装部署常见错误或问题

问题一：[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to install syscall filter:Java.lang.UnsupportedOperationException: seccomp unavailable: requires kernel 3.5+ with CON

2017-04-05 11:53:30 348

转载在Spark上通过BulkLoad快速将海量数据导入Hbase

使用org.apache.hadoop.hbase.client.Put来写数据使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中，但是和Bulk加载相比效率低下，仅仅作为对比。import org.apache.spark._import org.apache.spark.rdd.NewHadoopRDDimport org.apache

2017-03-31 18:46:54 8211 5

转载 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

原创文章，转载请务必将下面这段话置于文章开头处。本文转发自Jason’s Blog，原文链接　http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前

2017-03-31 18:31:30 327

转载 Scala中的协变，逆变，上界，下界等

目录 [−]Java中的协变和逆变Scala的协变Scala的逆变下界lower bounds上界upper bounds综合协变，逆变，上界，下界View Bound Context Bound参考文档Scala中的协变逆变和Java中的协变逆变不一样，看起来更复杂。本文对Scala中的这些概念做一总结。首先看几个

2017-03-30 10:20:12 434

转载堆外内存(off-heap)、堆内内存(on-heap)

堆Heap是内存中动态分配对象存在的地方。如果使用new一个对象，它就被分配在堆内存上。这是相对于Stack，如果你有一个局部变量则它是位于Stack栈内存空间。一般情况下，Java中分配的非空对象都是由Java虚拟机的垃圾收集器管理的，也称为堆内内存（on-heap memory）。虚拟机会定期对垃圾内存进行回收，在某些特定的时间点，它会进行一次彻底的回收（full gc）。彻底

2017-03-29 18:22:44 983

转载 oracle递归查询（查询条件ID下得所有子集）

一、CREATE TABLE TBL_TEST 　　( 　　ID NUMBER, 　　NAME VARCHAR2(100 BYTE), 　　PID NUMBER DEFAULT 0 　　) 　　INSERT INTO TBL_TEST(ID,NAME,PID) VALUES(‘1’,’10’,’0’);

2017-03-02 21:12:40 2225

原创 shell 小例

#!/bin/shinsert_mysql(){passwd='passswrod'/usr/local/bin/expect <<-EOFset time 30spawn ssh -p22 root@192.168.1.1expect {"*yes/no" { send "yes\r"; exp_continue }"*password:" { send "$passwd\r"

2016-12-28 11:09:25 514

转载 linux shell命令行选项与参数用法详解

在bash中，可以用以下三种方式来处理命令行参数，每种方式都有自己的应用场景。 1，直接处理，依次对1,1,2,…,$n进行解析，分别手工处理； 2，getopts来处理，单个字符选项的情况（如：-n 10 -f file.txt等选项）； 3，getopt，可以处理单个字符选项，也可以处理长选项long-option（如：–prefix=/home等）。总结：小脚本手工处理即可，geto

2016-12-28 11:03:44 7105

转载 linux下expect环境安装以及简单脚本测试

expect是交互性很强的脚本语言，可以帮助运维人员实现批量管理成千上百台服务器操作，很实用！ expect依赖于tcl，而linux系统里一般不自带安装tcl，所以需要手动安装http://download.chinaunix.net/download/0003000/2845.shtmltcl版本 8.4.19http://sourceforge.net/projects/tcl/files/

2016-12-26 17:30:15 558

转载 XGBoost模型调优

XGBoost模型调优加载要用的库In [1]:import pandas as pdimport numpy as npimport xgboost as xgbfrom xgboost.sklearn import XGBClassifierfrom sklearn import cross_validatio

2016-12-16 17:29:44 3349 1

转载特征工程小案例

特征工程小案例¶Kaggle上有这样一个比赛：城市自行车共享系统使用状况。提供的数据为2年内按小时做的自行车租赁数据，其中训练集由每个月的前19天组成，测试集由20号之后的时间组成。In [29]:#先把数据读进来import pandas as pddata = pd.read_csv('kaggle_bike_competition_trai

2016-12-16 15:42:00 3137

转载特征工程

特征工程数据集来源于Data Hackathon 3.x，所有的特征处理也只做最基本的参考，可自行尝试更多的特征工程工作，参考github里Feature engineering和Kaggle Titanic的案例。加载需要的库:In [1]:import pandas as pdimport numpy as np

2016-12-16 10:36:04 1261

转载逻辑回归应用之Kaggle泰坦尼克之灾

2016-12-15 17:00:22 1000

转载 Scala--特质

http://www.cnblogs.com/one–way/p/5830903.html一、为什么没有多重继承Java不允许多重继承，类只能继承一个超类，可以实现任意数量的接口。如何继承这两个抽象基类？Scala提供“特质”而非接口；特质可以同时抽象方法和具体方法。类可以实现多个特质。二、当做接口使用的特质trait Logger{ def log(msg: String) } cl

2016-12-15 16:52:56 310

原创 scala语法基础4

object Test {def main(args: Array[String]) { // val xs = 3 :: 6 :: 12 :: Nil // val s =xs match { // case List(a, b) => a * b // case List(a, b, c) => a + b + c // case _ =>

2016-11-28 17:34:24 415

idea 使用快捷键.docx

CentOS_Ganglia安装.doc

matplotlib-1.4.0.win-amd64-py2.7.exe

numpy-MKL-1.8.0.win-amd64-py2.7.exe

KafkaOffsetMonitor-assembly-0.2.0

ext-2.2.zip

storm实时代码

storm 代码

空空如也