自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王小雷-多面手

专注大数据架构,商业合作mwo@outlook.com

原创 免费为域名生成证书

目的 后台需要https或者前端需要https访问。需要有域名证书,介绍如何生成https证书。域名任意前缀都支持。本例子使用certbot签发letsencrypt证书,让spring boot后端使用。达到后端https的目的。 资料 https://letsencrypt.org/ http...

2020-05-15 14:18:29 39 0

原创 2.antlr4开发

2.antlr4开发 antlr4.7.2 1.通过MyHelloVisitor实现HelloVisitor package wang.xiaolei.lei; import org.antlr.v4.runtime.tree.ErrorNode; import org.antlr.v4.run...

2019-12-12 15:50:21 166 1

原创 1.ANTLR4 helloworld基础开发与IDEA插件使用

antlr4 helloworld基础开发与IDEA插件使用 无需antlr4任何安装,基于IDEA创建一个Java项目,开发antlr的helloworld,使用antlr插件测试规则。 输入hello后,才算匹配,然后显示world内容。 1.基于gradle或者maven创建一个Java工程...

2019-12-11 16:18:23 183 0

原创 Caused by: java.lang.NoSuchMethodException: hello.Receiver.receiveMessage([B)

Caused by: java.lang.NoSuchMethodException: hello.Receiver.receiveMessage([B) Spring AMQ 集成 RabbitMQ,使用postman调试topic报错 报错内容 Caused by: org.sp...

2019-10-17 16:56:12 177 0

原创 Apache Flink:数据流编程模型

Apache Flink:数据流编程模型 | 从入门到精通 - 第 2 期(每天一期新知识) Flink是最热门的实时计算引擎之一。在动手部署和编程之前,学习Flink的数据流编程模型,可以建立起核心概念的全局架构。方便局部概念深入学习。 Apache Flink:数据流编程模型 ▾点击播放视频教...

2019-09-07 10:35:05 463 0

原创 初识Apache Flink - 数据流上的有状态计算

初识Apache Flink - 数据流上的有状态计算 | 做大数据实时(流)计算就应该学习Flink。 初识Flink https://www.bilibili.com/video/av66770569/ 点击播放视频 | 什么是Flink? Apache Flink...

2019-09-06 11:01:32 184 0

原创 数仓表概念

事实表: 事务事实表(Transaction fact table) 周期快照表(Periodic snapshot fact table) 累积快照表(Accumulating snapshot fact table) 维度表 (Dimension table) ...

2019-08-27 08:56:37 250 0

原创 Pipeline大数据架构

1.Pipeline大数据架构 (create by 王小雷) Pipeline大数据架构,面向大数据仓库和大数据处理平台。是基于lambda的大数据架构的变种,增加了企业级服务,而并非只是大数据组件的对切,是一种更落地的方案。 如同骨架之间使用软骨连接起来一样,是一个完整可执行的架构设计。形成...

2019-04-03 13:18:28 1228 0

原创 Hive之UDFs(User-Defined Functions )

1.Hive之UDFs(User-Defined Functions ) 1.1 Hive UDFs (User Defined Functions) 可以在SQL处理比较繁琐或者无法胜任时,解决比较复杂数据处理手段。 1.2 Hive的功能函数有哪些? 内置操作(UDO) 内置功能(UDF) ...

2019-03-22 11:17:56 426 0

原创 什么是rubick?如何从零构建大数据平台?

rubick(拉比克) 1.简介 拉比克是一个开源大数据平台构建方案,其已稳定应用于50台生产大数据集群。 戳开源地址 2.特点 可从零构建分布式存储与分布式计算。 融合apache大数据开源组件,特定的配置,如Hadoop、Hive、Hbase、zookeeper等,类CDH。 ...

2019-02-12 17:05:51 321 1

原创 星型模型与雪花模型比对(区别)

星型模型与雪花模型比对(区别) 区别项 星型模型 雪花模型 事实表 一个或多个 集中式 维度表 一级维度表 多级维度表(子维度表) 存储空间 多 少 数据冗余度 大 小 表宽度 宽 窄 扩展性 差 好 Join复杂度 低 高 查询逻辑 简单 难 查询...

2019-02-12 16:15:25 1569 0

原创 什么是雪花模型

1.什么是雪花模型 Snowflake schema 雪花模型是多维数据库中的表的逻辑排列方式,使得实体关系图类似于雪花形状。雪花模型由连接到多个维度的集中式事实表组成。“Snowflaking”是一种在星型模型中规范化维度表的方法。 当它沿着所有维度表完全标准化时,结果结构类似于雪花,其中事实表...

2019-02-12 15:27:20 1620 0

原创 什么是星型模型

1.什么是星型模型? Star schema 星型模型是最简单的数据集市模型,是最广泛用于开发数据仓库和维度数据集市的方法。星型模型由一个或多个引用任意数量的维度表的事实表组成。 星型模型是雪花模型的一个重要特例,对于处理更简单的查询更有效。 星型模型的名称来自物理模型与星形的相似之处,其中心有一...

2019-02-12 15:18:36 1323 0

原创 本地idea开发mapreduce程序提交到远程hadoop集群执行

通过idea开发mapreduce程序并直接run,提交到远程hadoop集群执行mapreduce。 简要流程:本地开发mapreduce程序–>设置yarn 模式 --> 直接本地run–>远程集群执行mapreduce程序;...

2018-11-22 16:02:10 2159 2

原创 启动HBase2.1.0报错Caused by: java.lang.ClassNotFoundException: org.apache.htrace.SamplerBuilder

启动HBase2.1.0报错Caused by: java.lang.ClassNotFoundException: org.apache.htrace.SamplerBuilder1.问题描述2.解决 1.问题描述 hadoop HA 3.1.0 Hbase 2.1.0启动报错 Caused b...

2018-10-09 09:16:40 3352 0

原创 Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.6

问题:spark实时处理数据报错 Spark Structured Streaming kafka 报错 Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2...

2018-09-05 17:15:11 3738 1

原创 storm-core使用gradle打包找不到 ring-cores问题Could not find ring-cors:ring-cors:0.1.5.

问题storm-core使用gradle打包找不到ring-cors:ring-cors:0.1.5. FAILURE: Build failed with an exception. What went wrong: Could not resolve all files for con...

2018-08-30 23:00:36 951 0

原创 14.4 Spark-SQL基于Cassandra数据分析编程实例

14.4 Spark-SQL编程-PostgreSQL-Cassandra数据分析 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: Spark对Canssandra数据库数据的处理,通过Spark SQL对结构化数据进行数据分析。 创建Gradle项目...

2018-07-15 22:39:39 1964 0

原创 14.3 Spark-SQL基于PostgreSQL数据分析编程实例

14.3 Spark-SQL编程-PostgreSQL-Cassandra数据分析 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: Spark对PostgreSQL数据源数据的处理,通过Spark SQL对结构化数据进行数据分析。 创建Gradle项目...

2018-07-15 22:08:35 852 0

原创 14.1 Apache Spark 简介快速入门

14.1 Apache Spark 简介快速入门 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: 速度 简单易用 Spark架构 到处运行 多种数据源 14.1.1 速度 百倍的运行速度。 Spark使用先进的DAG调度系统,查询优化器与物理执行...

2018-07-15 22:03:00 424 0

原创 12.6 Cassandra开启远程连接

12.6 Cassandra开启远程连接 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: Cassandra开启远程连接 12.6.1 修改Cassandra配置文件 vim cassandra.yaml 12.6.2 修改如下内容 ...

2018-07-15 21:59:01 2178 0

原创 12.5 Cassandra安全配置--密码认证

12.5 Cassandra安全配置–密码认证 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: Cassandra密码模式配置 12.5.1 打开配置文件 vim cassandra.yaml 12.5.2 修改如下内容 aut...

2018-07-15 21:57:39 1085 0

原创 12.4 Cassandra数据模型

12.4 Cassandra数据模型 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 没有JOIN操作 Cassandra没有表的连接操作,跟关系型数据库设计相比最好的方式是,反(非)规范化设计,设计为两个表连接后的结果表。 没有参照完整性(外键) 虽然表中可以...

2018-07-08 17:08:05 219 0

原创 12.3 Cassandra数据定义

12.3 Cassandra数据定义 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: 数据定义 12.3.1 Cassandra Query Language (CQL) CQL是Cassandra提供的接近SQL的模型,因为数据包含在行列的表中,...

2018-07-08 17:05:16 222 0

原创 12.2 Cassandra安装

12.2 Cassandra安装 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: 安装Canssandra 下载、解压、移动Cassandra wget https://mirrors.tuna.tsinghua.edu.cn/apache...

2018-07-08 16:59:17 236 0

原创 7.2 Sqoop2示例数据从PostgreSQL导入到HDFS

7.2 Sqoop2示例数据从PostgreSQL导入到HDFS “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: 创建源数据PostgresSQL表与目标数据文件 设置Sqoop2 server 创建HDFS link,jdbc link 创建job,执...

2018-07-08 16:57:30 1348 4

原创 7.2 Sqoop2安装

7.2 Sqoop2安装 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: Sqoop2环境变量设置 Sqoop2配置文件修改 Sqoop2数据库初始化与验证 开启Sqoop2 关闭Sqoop2 在此之前已经部署好Hadoop(伪分布式或者完全分布式)...

2018-07-08 16:51:15 186 0

原创 4.2 ApacheAvro编程Java示例

4.2ApacheAvro编程Java示例 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: 创建Gradle项目、创建Avro模式 使用Avro命令行工具生成Java代码 不使用Avro命令行工具生成Java代码 4.2.1 创建Gradle项目、创...

2018-07-08 16:47:05 579 0

原创 4.1 数据存储格式

4.1 数据存储格式 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 Avro是一个序列化系统。 特点: 支持丰富的数据结构 紧凑、快速的二进制数据格式 持久化存储的容器文件 远程过程调用(RPC) 动态语言的简单集成 下载 https://mirrors.tu...

2018-07-08 16:43:33 296 0

原创 2.5 Linux(Ubuntu18.04)安装数据库PostgreSQL

2.5 Linux(Ubuntu18.04)安装数据库PostgreSQL “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: 创建一台database虚拟机(本章称为服务器) 安装PostgreSQL 2.5.1 创建Database服务器Ubuntu...

2018-07-08 16:41:08 933 0

原创 2.4 Hadoop伪分布式快速部署

Hadoop伪分布式快速部署 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: 依赖安装、免密登录 安装Java 伪分布式——Hadoop MapReduce配置 配置Hadoop环境变量 伪分布式——Hadoop MapReduce开启 伪分布式——YA...

2018-07-08 16:32:49 305 0

原创 2.2Virtualbox高级应用构建本地大数据集群服务器

2.2 Virtualbox高级应用构建本地大数据集群服务器 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: 创建4台虚拟机(本章中称虚拟机亦称服务器)分别命名为(busuanzi.org,master,worker1,worker2) 设置Host-o...

2018-07-08 16:23:24 292 0

原创 卜算子·大数据简介 一个开源、成体系的大数据学习教程

第1章 卜算子·大数据简介 “卜算子·大数据”,是一个开源、成体系的大数据学习教程。从基础数据采集到顶层架构设计。最新梳理出大数据知识体系共计12个部分,42个章节。 每周日更新,金九银十际,助你上青天! 本章主要内容: 特点 “卜算子·大数据”架构 项目更新 写作目的 原创声明 ...

2018-06-29 11:50:52 1174 0

原创 2.3 基于IDEA开发第一个MapReduce大数据程序WordCount

2.3 基于IDEA开发第一个MapReduce大数据程序WordCount 开源地址 https://github.com/wangxiaoleiAI/big-data 卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——...

2018-06-24 15:02:22 2428 0

原创 Ubuntu18.04主题更换为 Mac OS high Sierra美化教程与Mac book pro键盘问题

Ubuntu18.04完全美化教程 Ubuntu18.04主题更换为 Mac OS high Sierra 昨天MBP去换键盘…需要一周左右(2017MBP键盘真的不敢恭维…我居然能把空格键给敲塌陷了,敲的代码有那么多吗…),所以这几天赶紧启用另一个thinkpad(离开计算机如同废人的我…),...

2018-06-24 10:56:19 14759 2

原创 2.2 Hadoop3.1.0完全分布式集群配置与部署

2.2 Hadoop3.1.0完全分布式集群配置与部署 开源地址 https://github.com/wangxiaoleiAI/big-data 卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、...

2018-06-20 20:50:19 3591 1

原创 1.3 virtualbox高级应用构建本地大数据集群服务器

1.3 virtualbox高级应用构建本地大数据集群服务器 开源地址 https://github.com/wangxiaoleiAI/big-data 卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Lin...

2018-06-20 13:29:09 749 0

原创 2.1 Hadoop伪分布式安装部署

2.1 Hadoop伪分布式安装部署 开源地址 https://github.com/wangxiaoleiAI/big-data 卜算子·大数据 目录 开源“卜算子·大数据”系列文章、源码,面向大数据(分布式计算)的编程、应用、架构——每周更新!Linux、Java、Hadoop、...

2018-06-15 08:42:58 750 0

原创 1.2 linux使用技巧快速入门

1.2 linux使用技巧快速入门 开源地址 https://github.com/wangxiaoleiAI/big-data 卜算子·大数据 目录 为大数据知识做基础准备,首先要对Linux有初步的了解,接下来就讲解一些Linux常用的技巧命令。 1.2.1 debian/ub...

2018-06-14 13:16:34 253 0

原创 1.1 Virtualbox虚拟机快速入门

1.1 Virtualbox虚拟机快速入门 virtualbox安装、配置、安装Ubuntu 18.04过程详细记录 开源地址 https://github.com/wangxiaoleiAI/big-data 卜算子·大数据 目录 1.1.1 关闭BIOS安全启动项、开启BIOS...

2018-06-14 12:35:54 2028 0

提示
确定要删除当前文章?
取消 删除