2016年04月_mllhxn

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 ZooKeeper四字命令

ZooKeeper 支持某些特定的四字命令字母与其的交互。它们大多是查询命令，用来获取 ZooKeeper 服务的当前状态及相关信息。用户在客户端可以通过 telnet 或 nc 向 ZooKeeper 提交相应的命令。 ZooKeeper 常用四字命令见下表 1 所示：表 1 ： ZooKeeper 四字命令ZooKeeper 四字命令功能描述conf输出相关服务配置的详细信息。cons列出所有...

2016-04-28 14:27:03 311

原创 marve register license

curl -XPUT -u admin ‘http://192.168.1.246:9200/_license’ -d @xxx-10bd4115-e4c9-45c8-b32e-f3a04a6a0501.curl -XPUT -u admin ‘http://192.168.1.246:9200/_license?acknowledge=true’ -d @xxx-10bd4115-e4c9-45c

2016-04-27 11:14:33 435

原创 ganglia cdh 配置

找个源码找ganglia相关类里都有hbase# for Ganglia 3.7*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31 *.sink.ganglia.period=10 hbase.sink.ganglia.period=10 hbase.sink.ganglia.serve

2016-04-26 10:54:40 761

原创 Ganglia安装

1.前期准备1.1.节点准备修改主机名、ip、iptables关闭；时间同步关闭防火墙 service iptables stop 查看防火墙开机启动状态 chkconfig iptables –list 关闭防火墙的开机启动 chkconfig iptables off1.2.软件准备ganglia-3.7.1.tar.gz、ganglia-web-3.7.0.tar.gz 地址：h

2016-04-25 15:59:58 1073

转载集群节点临时重启

转：http://blog.csdn.net/an74520/article/details/42871023 当修改配置时可能需要重启集群才生效，或者集群发生严重错误无法恢复时都可能需要重启集群一个集群节点重启前要先临时禁用自动分配，设置cluster.routing.allocation.enable为none，否则节点停止后，当前节点的分片会自动分配到其他节点上，本节点启动后需要等其他节

2016-04-22 11:52:19 944

转载 elasticsearch更改mapping(不停服务重建索引)

转：http://donlianli.iteye.com/blog/1924721?utm_source=tuicool&utm_medium=referralstep1、创建一个索引，这个索引的名称最好带上版本号，比如my_index_v1,my_index_v2等。 step2、创建一个指向本索引的同义词。curl -XPOST localhost:9200/_aliases -d '{

2016-04-22 11:49:58 2671

转载 Elasticsearch的备份和恢复

转:http://keenwon.com/1393.html备份Elasticsearch的一大特点就是使用简单，api也比较强大，备份也不例外。简单来说，备份分两步：1、创建一个仓库。2、备份指定索引。下面一步一步来：1、创建一个仓库（creating the repository）备份数据之前，要创建一个仓库来保存数据，仓库的类型支持Shared filesystem, Amazon S3, H

2016-04-22 10:58:23 441

转载 flume-ng性能优化与架构设计

转：http://blog.csdn.net/hijk139/article/details/22861667如图1所示，一个flume-ng agent主要包括source，channel和sink三部分，三部分运行在java JVM中，JVM一般运行在linux'操作系统上，因此，这些因素都可能影响最终的性能。flume-ng性能优化与架构设计，简单来讲，也主要包括以上部分

2016-04-21 21:12:57 326

转载 ElasticSearch性能优化策略

一、服务器部署算法的基本思想 1、增加1-2台服务器，用于负载均衡节点 elasticSearch的配置文件中有2个参数：node.master和node.data。这两个参数搭配使用时，能够帮助提供服务器性能。 1.1> node.master: false node.data: true 该node服务器只作为一个数据节点，只用于存

2016-04-21 20:58:10 1561

转载 Spark的性能调优

转：http://lxw1234.com/archives/2016/01/603.htm 算法的基本思想首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们会被分配到executor上面去执行。Stage指的是一组并行运行的task，stage内部是不能出现s

2016-04-21 11:59:21 429

转载 TF-IDF与余弦相似性的应用

转：http://www.ruanyifeng.com/blog/2013/03/tf-idf.html一个容易想到的思路，就是找到出现次数最多的词。如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"（Term Frequency，缩写为TF）统计。结果你肯定猜到了，出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停

2016-04-14 21:20:30 453

原创局部加权线性回归

局部加权线性回归权值求解结果

2016-04-13 20:42:00 396

转载正态分布（Normal distribution）又名高斯分布（Gaussian distribution）

转：http://blog.csdn.net/rns521/article/details/6953591正态分布（Normal distribution）又名高斯分布（Gaussian distribution），是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布，记为：

2016-04-13 10:20:58 1371

转载 spark streaming updateStateByKey 用法

转：http://blog.csdn.net/stark_summer/article/details/47666337updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加在有新的数据信息进入或更新时，可以让用户保持想要的任何状。使用这个功能需要完成两步： 1) 定义状态：可以是任意数据类型 2) 定义状态更

2016-04-11 19:52:03 413

转载共享变量(广播变量和累加器)

转：http://blog.csdn.net/happyanger6/article/details/46576831共享变量通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读写的共享变量是低效的。尽管如此，Spar

2016-04-11 12:30:54 1321

转载 Flume-ng 高级功能配置

转：http://my.oschina.net/guol/blog/413642?utm_source=tuicool&utm_medium=referral看看flume的高级功能：1 flume channel selectors 如果没有特殊说明，则默认是replicating模式。还有Multiplexing、Custom模

2016-04-07 18:14:37 664

idea 使用快捷键.docx

2016-01-22

CentOS_Ganglia安装.doc

亲测安装成功，CentOS_Ganglia安装.doc，CentOS_Ganglia安装.doc

2016-01-22

matplotlib-1.4.0.win-amd64-py2.7.exe

2016-01-22

numpy-MKL-1.8.0.win-amd64-py2.7.exe

win7完美运行，win10出问题的话python path需要自己手配，而且要管理员权限运行

2016-01-22

KafkaOffsetMonitor-assembly-0.2.0

亲测可用哦 java -jar KafkaOffsetMonitor-assembly-0.2.0.jar \ com.quantifind.kafka.offsetapp.OffsetGetterWeb \ --zk xxx \ --port 8086 \ --refresh 10.seconds \ --retain 7.days &

2016-01-22

ext-2.2.zip

亲测可用 ext-2.2.zip，用于oozie安装的插件，

2016-01-22

storm实时代码

storm -kafka 存储到hbase中

2015-04-15

storm 代码

Storm Real-time Processing Cookbook

2014-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人