自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Shockang的博客

大数据开发学习经验分享

  • 博客(25)
  • 资源 (17)
  • 收藏
  • 关注

原创 ClickHouse 是什么?ClickHouse 有哪些特性?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文ClickHouse 是什么?ClickHouse 是一个面向列的数据库管理系统(DBMS),用于查询的在线分析处理(OLAP)。ClickHouse 简写是 CK。由号称“俄罗斯Google”的Yandex开发而来,在2016年开源。ClickHouse 和 Apache Kylin 可

2021-08-25 22:37:07 6313 8

原创 一篇文章搞懂 Apache Kylin 4.x 的技术架构

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 系统可以分为在线查询和离线构建两部分,技术架构如图所示,在线査询的模块主要处于上半区,而离线构建则处于下半区。离线构建我们首先来看看离线构建的部分。从图中可以看出,数据源在左侧,主要是 Hadoop/Hive/Kafka/RDBMS ,保存着待分析的用户数据。根据元数据

2021-08-24 23:26:58 3557 3

原创 Apache Kylin 的工作流程是什么?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 的工作原理就是对数据模型做 Cube 预计算,并利用计算的结果加速查询。具体工作过程如下指定数据模型,定义维度和度量。预计算 Cube ,计算所有 Cuboid 并保存为物化视图。执行查询时,读取 Cuboid ,运算,产生査询结果。关于维度和度量请参考我的博客

2021-08-24 22:43:52 3172 7

原创 Apache Kylin 的预计算是怎么回事?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 的使命Apache Kylin 的使命是超高速的大数据 OLAP ( OnlineAnalyticalProcessing ),也就是要让大数据分析像使用数据库一样简单迅速,用户的查询请求可以在秒内返回,交互式数据分析将以前所未有的速度释放大数据里潜藏的知识和信息,让我们在面对

2021-08-24 22:24:26 3643 2

原创 Apache Kylin 有哪些特性?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文1. 可扩展超快的基于大数据的分析型数据仓库Kylin 是为减少在 Hadoop/Spark 上百亿规模数据查询延迟而设计2. Hadoop ANSI SQL 接口作为一个分析型数据仓库(也是 OLAP 引擎),Kylin 为 Hadoop 提供标准 SQL 支持大部分查询功能3. 交互式查询能力

2021-08-24 22:16:02 2809

原创 Apache Kylin 是什么?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 ——来自 Apac

2021-08-24 21:59:06 2992 1

原创 Elasticsearch 中文分词器 IK 的安装与使用

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文ES默认对英文文本的分词器支持较好,但和lucene一样,如果需要对中文进行全文检索,那么需要使用中文分词器,同lucene一样,在使用中文全文检索前,需要集成IK分词器。那么我们接下来就来安装IK分词器,以实现中文的分词第一步:三台机器安装IK分词器将安装包上传到node01机器的/home/e

2021-08-23 22:23:16 7297 17

原创 Elasticsearch 的分页解决方案

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文1、导入数据DELETE usPOST /_bulk{ "create": { "_index": "us", "_type": "tweet", "_id": "1" }}{ "email" : "john@smith.com", "name" : "John Smith", "username

2021-08-23 22:09:46 7383 19

原创 Elasticsearch 如何定义字段类型mappings ?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文为什么要定义 mappings ?在es当中,每个字段都会有默认的类型,根据我们第一次插入数据进去,es会自动帮我们推断字段的类型,当然我们也可以通过设置mappings来提前自定义我们字段的类型1、使用mappings来提前定义字段类型使用mapping的映射管理,提前指定字段的类型,防止后续的程

2021-08-23 22:03:15 7143 24

原创 一篇文章入门 Elasticsearch 查询

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文数据准备在kibana提供的界面上进行操作。POST /school/student/_bulk{ "index": { "_id": 1 }}{ "name" : "liubei", "age" : 20 , "sex": "boy", "birth": "1996-01-02" , "abou

2021-08-23 00:14:25 6797 17

原创 Elasticsearch 怎么管理索引?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文curlcurl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。在centos的默认库里面是有curl工具的,如果没有请yum安装即可。curl-X 指定http的请求方法 有HEAD G

2021-08-22 23:58:17 7134 20

原创 Elasticsearch 的核心概念有哪些?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文1、索引 index一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母的),并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。在一个集群

2021-08-22 23:44:16 6719 10

原创 如何安装 elasticsearch-head 插件?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文由于es服务启动之后,访问界面比较丑陋,为了更好的查看索引库当中的信息,我们可以通过安装elasticsearch-head这个插件来实现,这个插件可以更方便快捷的看到es的管理界面1 、node01机器安装nodejsNode.js是一个基于 Chrome V8 引擎的 JavaScript 运行环

2021-08-22 22:54:26 7104 18

原创 Elasticsearch 怎么安装部署?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文第一步:创建普通用户注意:ES不能使用root用户来启动,必须使用普通用户来安装启动。这里我们使用hadoop用户来安装我们的es服务第二步:下载并上传压缩包,然后解压将es的安装包下载并上传到node01服务器的/opt/bigdata/softnode01服务器使用es用户执行以下命令

2021-08-22 22:38:02 6537 12

原创 ELK 是什么?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文ELKELK是三个软件产品的首字母缩写,Elasticsearch,Logstash 和 Kibana。这三款软件都是开源软件,通常是配合使用,而且又先后归于 Elastic.co 公司名下,故被简称为 ELK 协议栈。ElasticsearchElasticsearch是个开源分布式搜索引擎,

2021-08-22 22:28:31 6780 15

原创 Flink 的状态保存和恢复

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文为什么需要 state 和 checkpoint ?package com.shockang.study.bigdata.flink.demo;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apach

2021-08-15 11:53:31 9387 20

原创 一篇文章搞懂 Flink 的 watermark 机制

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文1、watermark的作用watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用watermark机制结合window来实现。我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下,流到operator的数据都是按照事件产生的时

2021-08-15 11:29:53 9032 25

原创 Flink 的 Time 三兄弟

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文在专栏前面我们已经介绍过可以通过window窗口来统计每一段时间或者每多少条数据的一些数值统计。请参考我的这篇博客——一篇文章搞懂 Flink 的 Window但是也存在另外一个问题,就是如果数据有延迟该如何解决,例如一个窗口定义的是每隔五分钟统计一次,我们应该在上午九点至九点零五分这段时间统计

2021-08-15 11:00:19 7145 17

原创 一篇文章搞懂 Flink 的 Window

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文为什么需要 window ?对于流式处理,如果我们需要求取总和,平均值,或者最大值,最小值等,是做不到的,因为数据一直在源源不断的产生,即数据是没有边界的,所以没法求最大值,最小值,平均值等,所以为了一些数值统计的功能,我们必须指定时间段,对某一段时间的数据求取一些数据值是可以做到的。或者对某一些数据求

2021-08-15 10:51:40 6924 17

原创 Flink 怎么部署安装?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文部署安装准备工作:关闭防火墙,关闭selinux,安装jdk,更改主机名,更改主机名与IP地址的映射关系,ssh免密码登录等1、Flink的local模式部署安装在local模式下,不需要启动任何的进程,仅仅是使用本地线程来模拟flink的进程,适用于测试开发调试等,这种模式下,不用更改任何配置,只

2021-08-15 10:17:01 10924 13

原创 LeetCode 刷题汇总之堆

前言本文隶属于专栏《LeetCode 刷题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构请见LeetCode 刷题汇总正文23. 合并K个升序链表/** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */

2021-08-14 10:34:15 1052 1

原创 HBase 的 Shell 操作一应俱全

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文1、进入Hbase客户端命令操作界面hbase shell2、查看帮助命令hbase(main):001:0> help3、查看当前数据库中有哪些表hbase(main):006:0> list4、创建一张表创建user表, 包含base_info、extra_info两

2021-08-08 23:16:01 1346 2

原创 HBase 怎么安装部署?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文建议按照我的这篇博客完成三节点大数据环境的安装配置。三节点大数据环境安装详细教程安装部署下载安装包https://hbase.apache.org/downloads.html规划安装目录 cd /opt/bigdata上传安装包到服务器解压安装包到指定的规划目录 tar -

2021-08-08 23:02:35 7281 17

原创 图文详解 HBase 的读写流程

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文请结合我的这篇博客来理解本文:一篇文章搞懂 HBase 的内部原理读操作首先从 ZooKeeper 找到 meta 表的 region 位置,然后读取 hbase:meta 表中的数据, hbase:meta 表中存储了用户表的 region 信息根据要查询的 namespace 、表名和 r

2021-08-08 22:18:33 35996 23

原创 一篇文章搞懂 HBase 的内部原理

绝对的一篇文章就能搞懂 HBase 的底层实现基本原理,图文并茂,逻辑清晰,格式工整,进来看一看吧~

2021-08-08 19:19:22 32516 25

CDH 5.14.2 安装包第三部分

CDH 5.14.2 安装包第三部分,建议配合我的博客——《CDH 5.14.2 安装部署指南》一同使用。

2022-10-31

CDH5.14.2 安装包第二部分

CDH5.14.2 安装包第二部分,建议配合我的博客——《CDH 5.14.2 安装部署指南》一同使用。

2022-10-31

CDH 5.14.2 安装包第一部分

CDH5.14.2 安装包第一部分,建议配合我的博客——《CDH 5.14.2 安装部署指南》一同使用。

2022-10-31

Apache Kylin 4.0.2 安装包

Apache Kylin 4.0.2 安装包

2022-10-17

Apache Doris 1.1.2 BE 安装包

Apache Doris 1.1.2 BE 安装包,建议配合我的博客——《Apache Doris 安装部署指南》一起使用

2022-10-02

Apache Doris 1.1.2 FE 安装包

Apache Doris 1.1.2 FE 安装包,建议配合我的博客——《Apache Doris 安装部署指南》一起使用

2022-10-02

Apache Doris 技术调研

Apache Doris 技术调研,建议配合我的同名博客来一同研究学习。

2022-09-26

mysql-5.7.36-el7-x86_64.tar.gz

mysql 5.7.36 linux 安装包

2022-08-08

cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz

cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz 建议配合我的博客一起使用——《Cloudera 平台搭建》

2022-08-01

Spark 线性回归测试数据集 lpsa.data

参考个人博客《Spark RDD 论文详解(三)Spark 编程接口》了解详情

2021-12-26

大数据从0到1 .pptx

大数据入门知识,面向纯大数据新手。主要关于为什么学习大数据、什么是大数据、大数据有哪些职业方向、大数据是如何发展起来的以及大数据该如何学习。

2021-11-01

spark-2.3.3.zip

Spark 2.3.3 安装包,配合本人博客《Spark 2.3 安装部署》一同使用

2021-10-16

elasticsearch-7.14.1-darwin-x86_64.tar

elasticsearch Mac

2021-09-12

logstash-7.14.1-darwin-x86_64.tar

logstash Mac

2021-09-12

kibana-7.14.1-darwin-x86_64.tar

kibana

2021-09-12

flink-1.8.1_after_compile.tar.gz

Flink 1.8.1 编译后的源码包

2021-08-22

elasticsearch-analysis-ik-6.7.0.zip

elasticsearch 中文分词

2021-08-22

elasticsearch-head-compile-after.tar.gz

编译后的 elasticsearch-head 源码包,建议配合安装教程《如何安装 elasticsearch-head 插件?》一同使用

2021-08-22

mysql-community-server-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-client-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-common-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-libs-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-client-plugins-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

Hive3.1.2安装包

建议配合我的博客一同使用——[Hive 3.x 安装部署教程](https://blog.csdn.net/Shockang/article/details/118062872)

2021-06-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除