2020年01月_create17

12月 11月 10月 09月 02月 01月

原创如何将Hive与HBase整合联用

版本说明：HDP：3.0.1.0Hive：3.1.0HBase：2.0.0一、前言之前学习 HBase 就有疑惑，HBase 虽然可以存储数亿或数十亿行数据，但是对于数据分析来说，不太友好，只提供了简单的基于 Key 值的快速查询能力，没法进行大量的条件查询。不过，Hive 与 HBase 的整合可以实现我们的这个目标。不仅如此，还能通过 Hive 将数据批量地导入到 HBas...

2020-01-31 17:25:25 1067

原创 HBase应用（一）：数据批量导入说明

版本说明：通过 HDP 3.0.1 安装的 HBase 2.0.0一、概述HBase 本身提供了很多种数据导入的方式，目前常用的有三种常用方式：使用 HBase 原生 Client API使用 HBase 提供的 TableOutputFormat，原理是通过一个 Mapreduce 作业将数据导入 HBase使用 Bulk Load 方式：原理是使用 MapReduce 作...

2020-01-31 13:01:12 1284 2

原创【详细爆文】HBase基础（一）：架构理解

版本说明：通过 HDP 3.0.1 安装的 HBase 2.0.0一、概述Apache HBase 是基于 Hadoop 构建的一个分布式的、可伸缩的海量数据存储系统。常被用来存放一些海量的(通常在TB级别以上)、结构比较简单的数据，如历史订单记录，日志数据，监控 Metris 数据等等，HBase 提供了简单的基于 Key 值的快速查询能力。HBase 实际上更像是“数据存储”...

2020-01-31 12:53:40 983

原创【入门】Kylin 基本原理及概念

Kylin版本：2.5.1前言膜拜大神，Kylin作为第一个由国人主导并贡献到Apache基金会的开源项目，堪称大数据分析界的“神兽”。所以我也是抓紧时间来学习Kylin，感受Kylin所带来的魅力。一、Kylin简介Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求，它提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据...

2020-01-29 11:55:00 1373

原创 Kylin 配置使用 Spark 构建 Cube

HDP版本：2.6.4.0Kylin版本：2.5.1机器：三台 CentOS-7，8G 内存Kylin 的计算引擎除了 MapReduce ，还有速度更快的 Spark ，本文就以 Kylin 自带的示例 kylinsalescube 来测试一下 Spark 构建 Cube 的速度。一、配置Kylin的相关Spark参数在运行 Spark cubing 前，建议查看一下这些配置并...

2020-01-29 11:51:02 1703

原创 Apache Kylin 目录详解

一、Kylin二进制源码目录解析bin: shell 脚本，用于启动/停止Kylin，备份/恢复Kylin元数据，以及一些检查端口、获取Hive/HBase依赖的方法等；conf: Hadoop 任务的XML配置文件，这些文件的作用可参考配置页面lib: 供外面应用使用的jar文件，例如Hadoop任务jar, JDBC驱动, HBase coprocessor 等.meta...

2020-01-29 11:44:14 1369

原创 Kylin集群模式部署（使用同一HBase存储）

HDP版本：3.0Kylin版本：2.6.0前言本文主要讲解如何部署Kylin集群，采取多个Kylin实例共享HBase存储的模式，如果需要事先了解Kylin基本概念的朋友可以点击这里前往。一、安装启动Kylin首先安装一个Kylin实例，然后再分析Kylin集群模式部署的注意点。1. 下载源码这里使用的是Kylin-2.6.0的版本，如果需要其它版本的话，请点击这里cd...

2020-01-29 11:33:53 1203

原创 Ambari 集成 Apache Kylin 服务（适配于 2.6.x / 2.7.x 版本）

一、前言Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。如果需要将Kylin服务受控于Ambari管控，那就需要集成服务了。二、集成服务关于ambari-Kylin的Python脚本已上传至github，具体...

2020-01-28 18:32:24 1800 8

原创 Kettle自定义jar包供javascript使用

我们都知道 Kettle 是用 Java 语言开发，并且可以在 JavaScript 里面直接调用 java 类方法。所以有些时候，我们可以自定义一些方法，来供 JavaScript 使用。本篇文章有参考自：一、在 java 项目中创建工具类在项目中，创建 utils 工具类，比如计算总页码的一个方法。代码如下：public class PaginationUtils {...

2020-01-28 18:11:15 946

原创为BlueLake主题增加自定义icon图标

一、前言hexo 的 Bluelake 主题是我一直在用的，简单大方，很喜欢。但最近有了添加自定义 icon 图标的需求，比如，添加 “地址”、“扫一扫”、“优惠券” 等 icon，还是很有必要研究一下如何制作的。然后我就去了主题作者 chaooo 的 github 上留言，咨询其方法，作者回复的很快，按照作者的回复，成功将自定义图标制作出来了，也分享给有需要的人。二、阿里妈妈图标库官...

2020-01-28 18:10:48 1839

原创 ambari-server api，多表数据关联

前文(Ambari-server开发自定义api)提到ambari-server自定义api，来获取一个表的信息。现在有一个需求，就是制作一个api，获取两个表的信息。这两个表中的数据是通过一个字段值是否一致来判断是否关联在一起的。下文会根据每个方法的作用进行说明，没有ambari-server后台开发的经验看起来可能会有些吃力，建议还是多debug后台代码，该文仅作参考。下面以ambar...

2020-01-28 18:08:43 982 1

原创 Elasticsearch 6.4.0 Logstash Kibana 安装（全）

一、ELK 是什么？ELK = Elasticsearch Logstash KibanaElasticsearch：后台分布式存储以及全文检索。Logstash: 数据导入导出的工具。Kibana：数据可视化展示界面。ELK架构为数据分布式存储、可视化查询和日志解析创建了一个功能强大的管理链。三者相互配合，取长补短，共同完成分布式大数据处理工作。注意: ELK技术栈...

2020-01-28 18:05:53 891

原创为BlueLake主题增加图片放大效果

fancyBox 是一个流行的媒体展示增强组件，可以方便为网站添加图片放大、相册浏览、视频弹出层播放等效果。优点有使用简单，支持高度自定义，兼顾触屏、响应式移动端特性，总之使用体验相当好。现在，我们就将 fancyBox 集成到 hexo BlueLake 中。一、下载 fancyboxgit clone https://github.com/fancyapps/fancybox....

2020-01-26 16:37:26 1085

原创 HBase二次开发之搭建HBase调试环境，如何远程debug HBase源代码

版本HDP：3.0.1.0HBase：2.0.0一、前言之前的文章也提到过，最近工作中需要对HBase进行二次开发（参照HBase的AES加密方法，为HBase增加SMS4数据加密类型）。研究了两天，终于将开发流程想清楚并搭建好了debug环境，所以就迫不及待地想写篇文章分享给大家。二、思路首先看到这个需求，肯定是需要先实现HBase配置AES加密《HBase配置AES加密》...

2020-01-26 16:16:11 981

原创调试 ambari-server 总结

刚开始debug ambari-server的时候，很多逻辑都是第一次接触。其中有很多知识点还是记录一下的好，做个备忘。这些知识点对于自定义api的开发还是很有作用的。1. api的子href的最后一个字符串如何定义？例如，指定一个id？解答：ambari 2.6编辑key_properties.json，将当前资源类型与含有id的value相映射。举例：amb...

2020-01-26 14:57:23 1056

原创 Elasticsearch如何修改Mapping结构并实现业务零停机

Elasticsearch 版本：6.4.0一、疑问在项目中后期，如果想调整索引的 Mapping 结构，比如将 iksmart 修改为 ikmax_word 或者增加分片数量等，但 Elasticsearch 不允许这样修改呀，怎么办？常规解决方法：根据最新的 Mapping 结构再创建一个索引将旧索引的数据全量导入到新索引中告知用户，业务要暂停使用一段时间修改程...

2020-01-26 14:34:16 1043

原创【实战】使用 Kettle 工具将 mysql 数据增量导入到 MongoDB 中

最近有一个将 mysql 数据导入到 MongoDB 中的需求，打算使用 Kettle 工具实现。本文章记录了数据导入从0到1的过程，最终实现了每秒钟快速导入约 1200 条数据。一起来看吧~一、Kettle 连接图简单说下该转换流程，增量导入数据：1）根据 source 和 db 字段来获取 MongoDB 集合内 business_time 最大值。2）设置 mysql 语...

2020-01-24 22:33:36 1295

转载该买哪种口罩？Python大数据分析来帮你

相信大家连日来都听说了一种名为“新型冠状病毒”所带来的危害。截止目前为止，境内已经确认的新型冠状病毒感染的肺炎病例已有217例，其中绝大多数都是发生在武汉。而从小编的亲身经历来看，身边也...

2020-01-21 14:14:40 150 1

转载【实战】Kettle自定义jar包供JavaScript使用

每一个成功人士的背后，必定曾经做出过勇敢而又孤独的决定。放弃不难，但坚持很酷~我们都知道 Kettle 是用 Java 语言开发，并且可以在 JavaScript 里面直接调用 java...

2020-01-06 23:48:27 309

phoenix-5.0.0.3.1.4.0-315.tar.gz

ambari-2.7.5 编译过程中这四个大包下载地址已经无法访问，所以需要提前从网上找到资源，幸好我之前有留存过这些文件，所以分享给大家，包含：hbase-2.0.2.3.1.4.0-315-bin.tar.gz ，hadoop-3.1.1.3.1.4.0-315.tar.gz ， grafana-6.4.2.linux-amd64.tar.gz ，phoenix-5.0.0.3.1.4.0-315.tar.gz

2021-04-22

Apache+Kylin权威指南.pdf

Apache Kylin中文版权威指南，Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎。另外，如果大家积分不足的话呢，也可以私信数字“0007”至我的微信公众号，来获取该资源。更重要的是公众号里面也有Apache Kylin相关文章噢，减少你的学习成本。 Kylin采用多维立方体预计算技术，可以将大数据的SQL查询速度提升到亚秒级别。相对于之前的分钟乃至小时级别的查询速度，亚秒级别速度是百倍到千倍的提升，该引擎为超大规模数据集上的交互式大数据分析打开了大门。 Apache Kylin也是中国人主导的、唯一的Apache顶级开源项目，在开源社区有世界级的影响力。对于数据分析来说，挺有必要看的一本书，推荐给大家。快快下载学习吧~

2019-04-07

Java版SMS4加密解密算法（源码含详细注释）

代码内每个方法都有着详细的注释，节约你的学习成本。如果你积分不足的话，可访问https://blog.csdn.net/CREATE_17/article/details/89067193，关注我的公众号免费获取资料。

2019-04-07

企业级大数据平台构建：架构与实现_朱凯(著) 机械工业出版社.pdf

这是一部教你如何从0到1架构与实现一个企业级大数据平台的著作，是作者在大数据和系统架构领域工作超过20000小时的经验总结。作者从横向视角出发，手把手教你如何拉通 Hadoop体系技术栈，以此搭建一个真实可用、安全可靠的大数据平台。通过阅读本书，大家一定能找到灵感和思路来应对实际工作中面对的问题。

2018-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人