- 博客(9)
- 资源 (15)
- 收藏
- 关注
原创 Hbase集群迁移
Hbase集群迁移源集群A目标集群B启动迁移任务的集群C,如果A或B集群的磁盘够大,也可以选择其中任意一个集群,用来启动迁移任务。数据流向:A->C->B分别消耗A集群的出口流量,C集群的出入流量,B集群的入口流量。由于pipeline的写入模式,流量还会在B集群内部再放大。一、准备源集群A和目标集群B由于网络的特殊性,需要在源集群A准备配置文件~/hado
2017-11-26 21:08:59 427
原创 zabbix3.2.0触发邮件告警流程
想要监控某一项,达到某个条件进行邮件预警,需要知道整个流程,才能得心应手,熟练运用zabbix进行监控。一般来说监控的是整个集群的节点情况,所以最好是创建出一个模板,在模板的基础上批量指定监控的节点。添加模板 -> 创建应用集 -> 创建监控项 -> 创建触发器邮件告警 流程 准备阶段:创建好sendmail.sh脚本,并编辑好发送邮件程序,更改执行权限,c
2017-11-23 16:43:39 649
原创 zabbix3.2.0 添加IO监控
Step 11. 添加userparameter_io.conf配置文件 在/etc/zabbix/zabbix_agentd.d下添加userparameter_io.conf, 文件内容如下: UserParameter=custom.vfs.dev.read.ops[*],cat /proc/diskstats | grep $1 | head -1 | awk '
2017-11-21 14:14:04 3227 1
原创 CDH 升级到5.12 /etc/alternatives 仍然指向旧版本的CDH
解决方案直接强制更新软连接:查看原始的连接ll /etc/alternatives | grep CDH | grep -v conf 例如lrwxrwxrwx 1 root root 66 Nov 18 11:13 avro-tools -> /data/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.26/bin/avro-tools
2017-11-20 15:17:41 1042
转载 Tuning Java Garbage Collection for Apache Spark Applications
一篇非常精彩的spark JVM调优,转载记录下,一路英文,还是比较通俗易懂的。Tuning Java Garbage Collection for Apache Spark Applicationsby Daoyuan Wang and Jie Huang Posted in COMPANY BLOGMay 28, 2015This is a guest po
2017-11-14 16:40:04 768
转载 基于Solr的Hbase二级索引
关于Hbase二级索引HBase 是一个列存数据库,每行数据只有一个主键RowKey,无法依据指定列的数据进行检索。查询时需要通过RowKey进行检索,然后查看指定列的数据是什么,效率低下。在实际应用中,我们经常需要根据指定列进行检索,或者几个列进行组合检索,这就提出了建立 HBase 二级索引的需求。二级索引构建方式:表索引、列索引、全文索引表索引是将索引数据单独存储为一
2017-11-10 14:17:09 553
原创 自己写了一个flume小文件合并脚本,解决hdfs小文件过多问题
flume数据采集之后,本打算按照五分钟滚动一个文件的,但是由于实时性要求提高,改为一分钟一个文件。但是开启了三个flume实例,导致hdfs小文件过多。1.影响NameNode,2.影响task数量决定写一个flume的合并脚本,写着写着,功能越来越多,越来越完善。合并方案我写过两个:1.使用spark进行读取合并,优点是scala代码书写,高级语言编程,易于理解维护
2017-11-08 22:12:07 2609
原创 hive中if和coalesce 去除null值,case when
ref http://blog.csdn.net/mtj66/article/details/52629876###################################### if usageselect * from (select *,if (b.name is null ,true,false ) as bo from test1 a left join test2
2017-11-08 13:47:51 4965
原创 CM5.12.0 spark 2.2.0 安装history service
Fail to bind history server .原因是 没有将 相应的jar 拷贝到各个节点将 SPARK2_ON_YARN-2.2.0.cloudera1.jar 拷贝 到 各节点的 /opt/cloudera/csd 目录下并更改用户组为 cloudera-scm (尤其是historyServer要有)-rw-r--r-- 1 cloudera-scm cl
2017-11-02 15:46:31 917
useragent解析逻辑&手机品牌匹配.txt
2021-11-22
shakespeare.json&logs;.jsonl.gz&accounts;.zip
2018-01-10
kafka-manager 1.3.3.15
2018-01-08
百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全
2017-10-16
数据仓库工具箱 维度建模权威指南 第3版
2017-10-16
IDEA 创建scala工程并打指定的依赖包
2017-08-11
hbase自定义Comparator进行数值比较
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人