2017年11月_mtj66

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hbase集群迁移

Hbase集群迁移源集群A目标集群B启动迁移任务的集群C，如果A或B集群的磁盘够大，也可以选择其中任意一个集群，用来启动迁移任务。数据流向：A->C->B分别消耗A集群的出口流量，C集群的出入流量，B集群的入口流量。由于pipeline的写入模式，流量还会在B集群内部再放大。一、准备源集群A和目标集群B由于网络的特殊性，需要在源集群A准备配置文件~/hado

2017-11-26 21:08:59 427

原创 zabbix3.2.0触发邮件告警流程

想要监控某一项，达到某个条件进行邮件预警，需要知道整个流程，才能得心应手，熟练运用zabbix进行监控。一般来说监控的是整个集群的节点情况，所以最好是创建出一个模板，在模板的基础上批量指定监控的节点。添加模板 -> 创建应用集 -> 创建监控项 -> 创建触发器邮件告警流程准备阶段：创建好sendmail.sh脚本，并编辑好发送邮件程序，更改执行权限，c

2017-11-23 16:43:39 649

原创 zabbix3.2.0 添加IO监控

Step 11. 添加userparameter_io.conf配置文件在/etc/zabbix/zabbix_agentd.d下添加userparameter_io.conf, 文件内容如下: UserParameter=custom.vfs.dev.read.ops[*],cat /proc/diskstats | grep $1 | head -1 | awk '

2017-11-21 14:14:04 3227 1

原创 CDH 升级到5.12 /etc/alternatives 仍然指向旧版本的CDH

解决方案直接强制更新软连接：查看原始的连接ll /etc/alternatives | grep CDH | grep -v conf 例如lrwxrwxrwx 1 root root 66 Nov 18 11:13 avro-tools -> /data/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.26/bin/avro-tools

2017-11-20 15:17:41 1042

转载 Tuning Java Garbage Collection for Apache Spark Applications

一篇非常精彩的spark JVM调优，转载记录下，一路英文，还是比较通俗易懂的。Tuning Java Garbage Collection for Apache Spark Applicationsby Daoyuan Wang and Jie Huang Posted in COMPANY BLOGMay 28, 2015This is a guest po

2017-11-14 16:40:04 768

转载基于Solr的Hbase二级索引

关于Hbase二级索引HBase 是一个列存数据库，每行数据只有一个主键RowKey，无法依据指定列的数据进行检索。查询时需要通过RowKey进行检索，然后查看指定列的数据是什么，效率低下。在实际应用中，我们经常需要根据指定列进行检索，或者几个列进行组合检索，这就提出了建立 HBase 二级索引的需求。二级索引构建方式：表索引、列索引、全文索引表索引是将索引数据单独存储为一

2017-11-10 14:17:09 553

原创自己写了一个flume小文件合并脚本，解决hdfs小文件过多问题

flume数据采集之后，本打算按照五分钟滚动一个文件的，但是由于实时性要求提高，改为一分钟一个文件。但是开启了三个flume实例，导致hdfs小文件过多。1.影响NameNode，2.影响task数量决定写一个flume的合并脚本，写着写着，功能越来越多，越来越完善。合并方案我写过两个：1.使用spark进行读取合并，优点是scala代码书写，高级语言编程，易于理解维护

2017-11-08 22:12:07 2609

原创 hive中if和coalesce 去除null值,case when

ref http://blog.csdn.net/mtj66/article/details/52629876###################################### if usageselect * from (select *,if (b.name is null ,true,false ) as bo from test1 a left join test2

2017-11-08 13:47:51 4965

原创 CM5.12.0 spark 2.2.0 安装history service

Fail to bind history server .原因是没有将相应的jar 拷贝到各个节点将 SPARK2_ON_YARN-2.2.0.cloudera1.jar 拷贝到各节点的 /opt/cloudera/csd 目录下并更改用户组为 cloudera-scm （尤其是historyServer要有）-rw-r--r-- 1 cloudera-scm cl

2017-11-02 15:46:31 917

逆地理编码离线版-精度到乡镇街道

传入经纬度，解析出地址信息，性能:4ms/条地址精度到乡镇街道，包含城市等级，精度满足一般的需求，如对精度要求极高请勿下载

2022-07-01

useragent解析逻辑&手机品牌匹配.txt

在对浏览界面进行解析获取用户信息的过程中，想要精准识别用户，对useragent解析&手机品牌匹配是必不可少的环节，本文档提供了解析逻辑，以及提供了最新的手机品牌和useragent对应的文件，帮你丰富用户画像，以及作为模型特征因子。

2021-11-22

windows服务器python程序部署文档.doc

如果在window服务器中部署python程序呢？本文有部署流程指导：从安装到定时任务的创建

2021-11-15

shakespeare.json&logs;.jsonl.gz&accounts;.zip

官网原始链接失效该压缩文件已经打包上传，提供大家测试使用。 shakespeare.json&logs;.jsonl.gz&accounts;.zip

2018-01-10

kafka-manager 1.3.3.15

已经编译好的 kafka-manager 1.3.3.15 具体使用可以参考 https://github.com/yahoo/kafka-manager

2018-01-08

中文版，提供百度网盘下载。本书作者：Ralph Kimball博士主要介绍本书从维度建模的基本知识入手，通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究，全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。同时，本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识，然后逐个讨论具体实例内容，最后进行综合总体分析，在内容的结构方面很有特色。本书涉及的行业较多，但这些内容从不同角度体现了数据仓库的各个方面，因而对于完整的学习与掌握数据仓库知识显得十分必要。仅供学习使用，切勿商业用途。

2017-10-16

数据仓库工具箱维度建模权威指南第3版

数据仓库工具箱维度建模权威指南第3版本书主要介绍本书从维度建模的基本知识入手，通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究，全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。同时，本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识，然后逐个讨论具体实例内容，最后进行综合总体分析，在内容的结构方面很有特色。本书涉及的行业较多，但这些内容从不同角度体现了数据仓库的各个方面，因而对于完整的学习与掌握数据仓库知识显得十分必要。

2017-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

mtj66的博客，交流WX:SpringBreeze1104

原创 Hbase集群迁移

原创 zabbix3.2.0触发邮件告警流程

原创 zabbix3.2.0 添加IO监控

原创 CDH 升级到5.12 /etc/alternatives 仍然指向旧版本的CDH

转载 Tuning Java Garbage Collection for Apache Spark Applications

转载基于Solr的Hbase二级索引

原创自己写了一个flume小文件合并脚本，解决hdfs小文件过多问题

原创 hive中if和coalesce 去除null值,case when

原创 CM5.12.0 spark 2.2.0 安装history service

逆地理编码离线版-精度到乡镇街道

useragent解析逻辑&手机品牌匹配.txt

windows服务器python程序部署文档.doc

T+0操作方法与技巧.pptx

shakespeare.json&logs;.jsonl.gz&accounts;.zip

kafka-manager 1.3.3.15

百度网盘数据仓库工具箱维度建模权威指南第3版全

数据仓库工具箱维度建模权威指南第3版

Tensorflow 实战Google深度学习框架

IDEA 创建scala工程并打指定的依赖包

高德地图POI类型表

常用数据挖掘算法总结及Python实现

hbase自定义Comparator进行数值比较

百度云存储LBS

创建单个分区的window虚拟机

空空如也

逆地理编码离线版-精度到乡镇街道

useragent解析逻辑&手机品牌匹配.txt

windows服务器python程序部署文档.doc

T+0操作方法与技巧.pptx

shakespeare.json&logs;.jsonl.gz&accounts;.zip

kafka-manager 1.3.3.15

百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全

数据仓库工具箱 维度建模权威指南 第3版

Tensorflow 实战Google深度学习框架

IDEA 创建scala工程并打指定的依赖包

高德地图POI类型表

常用数据挖掘算法总结及Python实现

hbase自定义Comparator进行数值比较

百度云存储LBS

创建单个分区的window虚拟机

空空如也

百度网盘数据仓库工具箱维度建模权威指南第3版全

数据仓库工具箱维度建模权威指南第3版