自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信搜:import_bigdata,大数据领域硬核原创作者

GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData

  • 博客(55)
  • 资源 (1)
  • 收藏
  • 关注

原创 FlinkSQL中的回退更新-Retraction

前言如果你在使用FlinkSQL时出现如下的报错:Table is not an append-only table. Use the toRetractStream()...

2019-04-29 23:11:29 2146

转载 一篇文章入门Hbase

1.HBaseHBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,为横向发展类型数据库,提供快速随机访问海量结构化数...

2019-04-28 21:47:56 409

转载 简单说说学习这件事

最近有朋友在后台留言,讨论一些关于学习的方法。说实话,我记得上一次和别人交流"学习的方法"这件事,还是在高中... ...

2019-04-27 00:24:07 246

原创 HBase和Hive的区别和各自适用的场景

先放结论:Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。一、区别:Hbase: ...

2019-04-26 01:00:00 1434

原创 面试必备技能-HiveSQL优化

Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点...

2019-04-25 01:00:00 1037

原创 Hive扩展功能(一)--Parquet

软件环境:linux系统: CentOS6.7Hadoop版本: 2.6.5zookeeper版本: 3.4.8主机配置:一共m1, m2, m3这三部机, 每部主机的用户名都为centos192.168.179.201: m1 192.168.179.202: m2 192.168.179.203: m3 m1: Zookeeper, Namenode, Dat...

2019-04-24 19:22:30 818

原创 Hive - 日期从整形转为Date类型

在建表的时候我们常将日期字段设置为INT类型,将诸如20180601这样的数字值来表示日期,这样在做日期比较等操作时没有问题,但是要进行某些日期计算,就要先转成日期类型才能进行计算了,怎么转换呢?数据准备下面在Hive中先建一个表,含有一个INT类型的日期字段,插入两行数据。create table tb (dt INT);insert into tb values (201807...

2019-04-24 19:17:36 1435

原创 一个小知识点-Hive行转列实现Pivot

前言传统关系型数据库中,无论是Oracle(11g之后)还是SQLserver(2005之后),都自带了Pivot函数实现行转列功能,本文主要讲述在Hive中实现行转列的两种方式。传统数据库方式这种方式是借鉴在Oracle或者SQLserver在支持Pivot函数之前实现行转列的方式,实际上语法没有什么变化,只是换成了Hive。with testtable...

2019-04-24 01:00:00 2233

原创 Hive使用必知必会系列

一、Hive的几种数据模型 内部表 (Table 将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse) 外部表 (External Table 相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息) 分区表 (Partition Table将数据按照设定的条件分开存储,提高查询效率,分区-----> 目录) 桶表 (...

2019-04-23 01:00:00 1523

转载 基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQ...

2019-04-22 00:00:00 589

原创 真香

昨天我跑到公司拿快递,然后在墙上看到一个宣传牌子,因为牌子小,字显得密密麻麻,看完了脑子里就剩下了真香两个字。1当我买了Kindle我要学习,→ 发X圈,今年深度阅读5...

2019-04-21 12:47:20 467

原创 Flink 原理与实现:Operator Chain原理

Flink的逻辑/执行计划优化,有一个很大的特点就是,会将多个operator,串在一起作为一个operator chain来执行。关于operator chain,在 Flink 原理与实现:理解 Flink 中的计算资源 中已经有了初步的介绍,在阅读本文之前,建议先阅读上文。本文将从源码上进一步分析,探究operator chain内部是如何实现的。OperatorChain是在Strea......

2019-04-21 11:40:05 3572

原创 Flink原理与实现:如何生成ExecutionGraph及物理执行图

ExecutionGraph生成过程StreamGraph和JobGraph都是在client生成的,这篇文章将描述如何生成ExecutionGraph以及物理执行图。同时会讲解一个作业提交后如何被调度和执行。client生成JobGraph之后,就通过submitJob提交至JobMaster。在其构造函数中,会生成ExecutionGraph: this.executionGra......

2019-04-21 11:38:50 2454

原创 Flink原理与实现:Window的实现原理

在阅读本文之前,请先阅读Flink 原理与实现:Window机制,这篇文章从用户的角度,对Window做了比较详细的分析,而本文主要是从Flink框架的实现层面,对Window做另一个角度的分析。首先看一个比较简单的情况,假设我们在一个KeyedStream上做了一个10秒钟的tumbling processing time window,也就是说,每隔10秒钟窗口会触发一次,即: dat......

2019-04-21 11:37:39 1096

原创 Flink原理与实现:详解Flink中的状态管理

Flink原理与实现系列文章 :Flink 原理与实现:架构和拓扑概览Flink 原理与实现:如何生成 StreamGraphFlink 原理与实现:如何生成 JobGraphFlink原理与实现:如何生成ExecutionGraph及物理执行图Flink原理与实现:Operator Chain原理上面Flink原理与实现的文章中,有引用word count的例子,但是都没有包含状态管理。也......

2019-04-21 11:35:56 798

原创 Flink原理与实现:详解Flink中的状态管理

Flink原理与实现系列文章 :Flink 原理与实现:架构和拓扑概览Flink 原理与实现:如何生成 StreamGraphFlink 原理与实现:如何生成 JobGraphFlink原理与实现:如何生成ExecutionGraph及物理执行图Flink原理与实现:Operator Ch...

2019-04-21 11:31:42 963

原创 王知无的技术周报(4.15-4.19日)

发件人:王知无收件人:朋友们今日谷雨。友情提示:点击标题可跳转。本周知识点01Hadoop所支持的几种压缩格式本文介绍了Gzip、LZO、Snappy、Bzip2等几种常...

2019-04-20 10:53:30 519 1

转载 hadoop上搭建hive

环境hadoop2.7.1+ubuntu 14.04hive 2.0.1集群环境namenode节点:master (hive服务端)datanode 节点:slave1...

2019-04-18 07:00:00 592

转载 YARN Capacity Scheduler(容量调度器)

特点以队列为单位划分资源,每个队列可设定一定比例的资源最低保证和使用上限,同时,每个用户也可设定一定的资源使用上限以防止资源滥用。而当一个队列的资源有剩余时,可暂时将剩余...

2019-04-17 07:00:00 1969

转载 Java史上最全知识点整理

偶然从一个网友群中发现了整理的这份资料,不论是从整个 Java 知识体系,还是从面试的角度来看,都是一份含技术量很高的资料。也不知道这位作者是谁,里面的内容也大多整理来自于互联网,但很明显的是这位作者为了整理这份资料用了很多心,在此表示感谢。大家看下面的截图:(关键字:Java、面试、多线程、JVM、Netty、并发、锁、Hadoop、Spark、Flink)说实话,作为一名 Java 程序...

2019-04-16 23:32:33 1325

原创 Java史上最全知识点整理

偶然从一个网友群中发现了整理的这份资料,不论是从整个 Java 知识体系,还是从面试的角度来看,都是一份含技术量很高的资料。也不知道这位作者是谁,里面的内容也大多整理来自于互联网,但很明显的是这位作者为了整理这份资料用了很多心,在此表示感谢。大家看下面的截图:(关键字:Java、面试、多线程、JVM、Netty、并发、锁、Hadoop、Spark、Flink)...

2019-04-16 23:20:03 905

转载 MapReduce Join

分享两段代码,可以直接在项目中复用:Map Side Joinpackage MapJoin;import java.io.BufferedReader;import j...

2019-04-16 07:00:00 272

转载 Executor 端长时容错详解

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark...

2019-04-16 00:15:33 313

转载 ReceiverTraker, ReceivedBlockTracker 详解

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update,...

2019-04-16 00:15:23 412

转载 Receiver, ReceiverSupervisor, BlockGenerator详解

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark...

2019-04-16 00:15:07 372

转载 Receiver 分发详解

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark...

2019-04-16 00:14:54 297

原创 Driver 端长时容错详解

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark...

2019-04-16 00:14:38 374

转载 Hadoop所支持的几种压缩格式

Gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoopnative库;大部...

2019-04-15 07:00:00 804

原创 我最近在关注的事

我最近在关注的事:马老师在内网直播谈了关于加班的问题引起轩然大波中国《2019年新型城镇化建设重点任务》发布杭州开放了户籍准入制度,大专2年社保可落户昨天晚上吃完饭...

2019-04-14 13:29:12 303

转载 什么是 end-to-end exactly-once ?

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载[A] 一般我们把上游数据源 (Source) 看做一个 end,把下游数据接收 (Sink) 看做另一个 end:Source --> Spark Streaming --> Sink [end] [en...

2019-04-13 20:13:42 444

转载 Structured Streaming 实现思路与实现概述

本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0 ~ 2.2.3)福利部分: 《大数据成神之路》大纲大数据成...

2019-04-13 20:13:03 302

转载 Structured Streaming 之 Source 解析

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...

2019-04-13 20:12:14 398

转载 Structured Streaming 之 Sink 解析

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...

2019-04-13 20:11:42 1067

转载 Structured Streaming 之状态存储解析

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...

2019-04-13 20:10:59 751

转载 Structured Streaming 之 Event Time 解析

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...

2019-04-13 20:10:20 526

转载 Structured Streaming 之 Watermark 解析

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...

2019-04-13 20:09:11 1052

转载 CentOS7.5搭建Spark2.3.x分布式集群

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载一 下载安装包1 官方下载官方下载地址:http://spark.apache.org/downloads.html2 安装前提Java8 zookeeper hadoop Scala注意:从Spark2.0版开始,默认使用Scala 2.11构建。...

2019-04-13 20:07:30 407

原创 RDD与广播变量、累加器

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载一、RDD的概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD...

2019-04-13 20:06:38 514

转载 Spark之Transformation和Action

福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载Transformation算子基本的初始化static SparkConf conf = null; static JavaSparkContext sc = null; static { conf = new SparkConf(); conf.setMast...

2019-04-13 20:04:20 299

原创 王知无的技术周报(4.4-4.13日)

发件人:王知无收件人:朋友们本周隔着一个清明节,悄悄告诉大家我们的绩效已经谈完了,但是还是太忙了,只是心理上可以放松些。可以有更多的时间思考问题。昨天在内网直播参与了马老...

2019-04-13 00:40:20 285

大数据面试大总结300页.zip

大数据面试大总结300页.zip

2021-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除