2021年08月_Shockang

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 ClickHouse 是什么？ClickHouse 有哪些特性？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文ClickHouse 是什么？ClickHouse 是一个面向列的数据库管理系统（DBMS），用于查询的在线分析处理（OLAP）。ClickHouse 简写是 CK。由号称“俄罗斯Google”的Yandex开发而来，在2016年开源。ClickHouse 和 Apache Kylin 可

2021-08-25 22:37:07 6391 8

原创一篇文章搞懂 Apache Kylin 4.x 的技术架构

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 系统可以分为在线查询和离线构建两部分，技术架构如图所示，在线査询的模块主要处于上半区，而离线构建则处于下半区。离线构建我们首先来看看离线构建的部分。从图中可以看出，数据源在左侧，主要是 Hadoop/Hive/Kafka/RDBMS ，保存着待分析的用户数据。根据元数据

2021-08-24 23:26:58 3565 3

原创 Apache Kylin 的工作流程是什么？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 的工作原理就是对数据模型做 Cube 预计算，并利用计算的结果加速查询。具体工作过程如下指定数据模型，定义维度和度量。预计算 Cube ，计算所有 Cuboid 并保存为物化视图。执行查询时，读取 Cuboid ，运算，产生査询结果。关于维度和度量请参考我的博客

2021-08-24 22:43:52 3178 7

原创 Apache Kylin 的预计算是怎么回事？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 的使命Apache Kylin 的使命是超高速的大数据 OLAP ( OnlineAnalyticalProcessing )，也就是要让大数据分析像使用数据库一样简单迅速，用户的查询请求可以在秒内返回，交互式数据分析将以前所未有的速度释放大数据里潜藏的知识和信息，让我们在面对

2021-08-24 22:24:26 3649 2

原创 Apache Kylin 有哪些特性？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文1. 可扩展超快的基于大数据的分析型数据仓库Kylin 是为减少在 Hadoop/Spark 上百亿规模数据查询延迟而设计2. Hadoop ANSI SQL 接口作为一个分析型数据仓库(也是 OLAP 引擎)，Kylin 为 Hadoop 提供标准 SQL 支持大部分查询功能3. 交互式查询能力

2021-08-24 22:16:02 2815

原创 Apache Kylin 是什么？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 ——来自 Apac

2021-08-24 21:59:06 2997 1

原创 Elasticsearch 中文分词器 IK 的安装与使用

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文ES默认对英文文本的分词器支持较好，但和lucene一样，如果需要对中文进行全文检索，那么需要使用中文分词器，同lucene一样，在使用中文全文检索前，需要集成IK分词器。那么我们接下来就来安装IK分词器，以实现中文的分词第一步：三台机器安装IK分词器将安装包上传到node01机器的/home/e

2021-08-23 22:23:16 7302 17

原创 Elasticsearch 的分页解决方案

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文1、导入数据DELETE usPOST /_bulk{ "create": { "_index": "us", "_type": "tweet", "_id": "1" }}{ "email" : "john@smith.com", "name" : "John Smith", "username

2021-08-23 22:09:46 7392 19

原创 Elasticsearch 如何定义字段类型mappings ？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文为什么要定义 mappings ？在es当中，每个字段都会有默认的类型，根据我们第一次插入数据进去，es会自动帮我们推断字段的类型，当然我们也可以通过设置mappings来提前自定义我们字段的类型1、使用mappings来提前定义字段类型使用mapping的映射管理，提前指定字段的类型，防止后续的程

2021-08-23 22:03:15 7151 24

原创一篇文章入门 Elasticsearch 查询

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文数据准备在kibana提供的界面上进行操作。POST /school/student/_bulk{ "index": { "_id": 1 }}{ "name" : "liubei", "age" : 20 , "sex": "boy", "birth": "1996-01-02" , "abou

2021-08-23 00:14:25 6810 17

原创 Elasticsearch 怎么管理索引？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文curlcurl是利用URL语法在命令行方式下工作的开源文件传输工具，使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。在centos的默认库里面是有curl工具的，如果没有请yum安装即可。curl-X 指定http的请求方法有HEAD G

2021-08-22 23:58:17 7140 20

原创 Elasticsearch 的核心概念有哪些？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文1、索引 index一个索引就是一个拥有几分相似特征的文档的集合。比如说，你可以有一个客户数据的索引，另一个产品目录的索引，还有一个订单数据的索引。一个索引由一个名字来标识（必须全部是小写字母的），并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字。在一个集群

2021-08-22 23:44:16 6721 10

原创如何安装 elasticsearch-head 插件？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文由于es服务启动之后，访问界面比较丑陋，为了更好的查看索引库当中的信息，我们可以通过安装elasticsearch-head这个插件来实现，这个插件可以更方便快捷的看到es的管理界面1 、node01机器安装nodejsNode.js是一个基于 Chrome V8 引擎的 JavaScript 运行环

2021-08-22 22:54:26 7113 18

原创 Elasticsearch 怎么安装部署？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文第一步：创建普通用户注意：ES不能使用root用户来启动，必须使用普通用户来安装启动。这里我们使用hadoop用户来安装我们的es服务第二步：下载并上传压缩包，然后解压将es的安装包下载并上传到node01服务器的/opt/bigdata/softnode01服务器使用es用户执行以下命令

2021-08-22 22:38:02 6541 12

原创 ELK 是什么？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文ELKELK是三个软件产品的首字母缩写，Elasticsearch，Logstash 和 Kibana。这三款软件都是开源软件，通常是配合使用，而且又先后归于 Elastic.co 公司名下，故被简称为 ELK 协议栈。ElasticsearchElasticsearch是个开源分布式搜索引擎，

2021-08-22 22:28:31 6787 15

原创 Flink 的状态保存和恢复

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文为什么需要 state 和 checkpoint ？package com.shockang.study.bigdata.flink.demo;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apach

2021-08-15 11:53:31 9416 20

原创一篇文章搞懂 Flink 的 watermark 机制

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文1、watermark的作用watermark是用于处理乱序事件的，而正确的处理乱序事件，通常用watermark机制结合window来实现。我们知道，流处理从事件产生，到流经source，再到operator，中间是有一个过程和时间的。虽然大部分情况下，流到operator的数据都是按照事件产生的时

2021-08-15 11:29:53 9070 25

原创 Flink 的 Time 三兄弟

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文在专栏前面我们已经介绍过可以通过window窗口来统计每一段时间或者每多少条数据的一些数值统计。请参考我的这篇博客——一篇文章搞懂 Flink 的 Window但是也存在另外一个问题，就是如果数据有延迟该如何解决，例如一个窗口定义的是每隔五分钟统计一次，我们应该在上午九点至九点零五分这段时间统计

2021-08-15 11:00:19 7155 17

原创一篇文章搞懂 Flink 的 Window

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文为什么需要 window ？对于流式处理，如果我们需要求取总和，平均值，或者最大值，最小值等，是做不到的，因为数据一直在源源不断的产生，即数据是没有边界的，所以没法求最大值，最小值，平均值等，所以为了一些数值统计的功能，我们必须指定时间段，对某一段时间的数据求取一些数据值是可以做到的。或者对某一些数据求

2021-08-15 10:51:40 6939 17

原创 Flink 怎么部署安装？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文部署安装准备工作：关闭防火墙，关闭selinux，安装jdk，更改主机名，更改主机名与IP地址的映射关系，ssh免密码登录等1、Flink的local模式部署安装在local模式下，不需要启动任何的进程，仅仅是使用本地线程来模拟flink的进程，适用于测试开发调试等，这种模式下，不用更改任何配置，只

2021-08-15 10:17:01 10931 13

原创 LeetCode 刷题汇总之堆

前言本文隶属于专栏《LeetCode 刷题汇总》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构请见LeetCode 刷题汇总正文23. 合并K个升序链表/** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */

2021-08-14 10:34:15 1061 1

原创 HBase 的 Shell 操作一应俱全

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文1、进入Hbase客户端命令操作界面hbase shell2、查看帮助命令hbase(main):001:0> help3、查看当前数据库中有哪些表hbase(main):006:0> list4、创建一张表创建user表，包含base_info、extra_info两

2021-08-08 23:16:01 1349 2

原创 HBase 怎么安装部署？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文建议按照我的这篇博客完成三节点大数据环境的安装配置。三节点大数据环境安装详细教程安装部署下载安装包https://hbase.apache.org/downloads.html规划安装目录 cd /opt/bigdata上传安装包到服务器解压安装包到指定的规划目录 tar -

2021-08-08 23:02:35 7297 17

原创图文详解 HBase 的读写流程

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文请结合我的这篇博客来理解本文：一篇文章搞懂 HBase 的内部原理读操作首先从 ZooKeeper 找到 meta 表的 region 位置，然后读取 hbase:meta 表中的数据， hbase:meta 表中存储了用户表的 region 信息根据要查询的 namespace 、表名和 r

2021-08-08 22:18:33 36065 23