麦田里的守望者-蒋中洲【相信相信的力量】

做一位有灵魂的技术传播者,欢迎大家关注订阅 jiangzz_wy微信公众账号!
私信 关注
麦田里的守望者·
码龄4年

相信相信的力量

  • 42,124
    被访问量
  • 137
    原创文章
  • 53,904
    作者排名
  • 422
    粉丝数量
  • 于 2017-04-08 加入CSDN
获得成就
  • 获得105次点赞
  • 内容获得15次评论
  • 获得71次收藏
荣誉勋章
兴趣领域
  • #大数据
    #数据仓库#spark#ETL#hadoop#hive#storm
TA的专栏
  • Atlas
    6篇
  • janusgraph
    2篇
  • ClickHouse
    3篇
  • SpringBoot
    2篇
  • Dubbo
    8篇
  • DevOps
    4篇
  • NoSQL
    1篇
  • Linux系统
    2篇
  • MyBatis
    1篇
  • Hibernate
    2篇
  • 技巧杂记
    2篇
  • Java编程
    2篇
  • Spring Framework
    15篇
  • FastDFS文件服务器
    1篇
  • Hadoop离线分析
    2篇
  • Hbase数据库
    5篇
  • Phoenix
    5篇
  • Hive ETL分析
    8篇
  • Echars
    2篇
  • Apache Kylin
  • Sqoop 工具
    3篇
  • 分布式日志采集
    2篇
  • Kafka流处理平台
    5篇
  • Impala
    2篇
  • Azkaban 任务调度
    1篇
  • Zeppelin
    1篇
  • Storm实时计算
    5篇
  • Scala编程基础
    10篇
  • Spark内存计算
    18篇
  • Flink实时计算
    15篇
  • MySQL数据库
    4篇
  • Beam模板引擎
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

MySQL Cannal Kafka数据采集

介紹canal [kə’næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务 cache
原创
56阅读
0评论
0点赞
发布博客于 28 天前

janusgraph编程指南之-Schema设计

Java API集成①导入maven依赖<!-- https://mvnrepository.com/artifact/org.janusgraph/janusgraph-core --><dependency> <groupId>org.janusgraph</groupId> <artifactId>janusgraph-core</artifactId> <version>0.5.3<
原创
39阅读
0评论
1点赞
发布博客于 2 月前

Janusgraph开发指南-环境构建、UI集成

介绍JanusGraph旨在支持图形处理,以至于它们需要的存储和计算能力超出了单台计算机所能提供的范围。缩放图数据以进行实时遍历和分析查询是JanusGraph的基本优势。安装Janus①安装jdk,安装HBase、安装elasticsearch-6.3.0,由于前面很多文章讲解关于HBase安装环境,这里就不在赘述了。这里写一下Elasticsearch的安装步骤。[root@CentOSB ~]# rpm -ivh jdk-8u271-linux-x64.rpm[root@CentOSB ~]
原创
42阅读
0评论
0点赞
发布博客于 2 月前

Atlas编程指南之-垫片插件扩展机制

Atals的元数据治理主要是通过定制各种各样的Hook实现元数据的集成。这里Atlas设计巧妙的点在于使用了类加载机制实现类似代理的扩展模式。①定义垫片接口模块<dependency> <groupId>org.example</groupId> <artifactId>atlas-plugin-model</artifactId> <version>1.0-SNAPSHOT</version><
原创
36阅读
1评论
0点赞
发布博客于 2 月前

Atals元数据治理-TypeSystem详解

Type SystemAtlas允许用户为他们要管理的元数据对象定义模型。该模型由称为“类型”的定义组成。称为“实体”的“类型”的实例表示受管理的实际元数据对象。Type System是允许用户定义和管理Type 和Entity的组件。开箱即用的Atlas管理的所有元数据对象(例如,像Hive表)都使用Type 进行建模,并表示为实体。为了在Atlas中存储新类型的元数据,需要了解类型系统组件的概念。TypesAtlas中的Type是对如何存储和访问特定类型的元数据对象的定义。Type代表一个或一组属
原创
36阅读
0评论
0点赞
发布博客于 2 月前

Atals元数据治理-介绍/编译/安装

介绍Atlas 是一组可扩展且可扩展的核心基础治理服务,使企业能够高效、高效地满足 Hadoop 内的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。特性介绍Metadata types & instances预定义了许多Hadoop以及non-Hadoop元数据的types允许给Metadata定义新的t
原创
33阅读
0评论
0点赞
发布博客于 2 月前

Atlas解决hive-import出错问题Bug ATLAS-3886

Bug解决方案1.hive-import不能使用①拷贝commons-configuration-1.10.jar替换掉,所有的hadoop目录下的jarsrm -rf /usr/hadoop-2.9.0/share/hadoop/kms/tomcat/webapps/kms/WEB-INF/lib/commons-configuration-1.6.jarrm -rf /usr/hadoop-2.9.0/share/hadoop/yarn/lib/commons-configuration-1
原创
55阅读
0评论
0点赞
发布博客于 2 月前

Apache Spark 之 SparkSQL(章节六)

作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wySpark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如...
原创
408阅读
0评论
1点赞
发布博客于 2 年前

Apache Flink DataStream API之Transformation(章节三)

作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wyDataStream 数据转换常规操作符// order zhangsan TV,GAMEval env = StreamExecutionEnvironment.createLocalEnvironment()val props = new Properties()pro...
原创
193阅读
0评论
1点赞
发布博客于 2 年前

Apache Hbase

作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育Hbase概述Hbase是一个基于Hadoop之上的数据库服务,该数据库是一个分布式、可扩展的大的数据仓库。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™(HDFS虽然可以存储海量数据,但是对数据的管理粒度比较粗糙,只支持对文件的上传下载,...
原创
871阅读
0评论
3点赞
发布博客于 2 年前

ClickHouse编程指南之DatabaseEngine和TableEngine

数据类型数据类型范围备注UUID通用唯一标识符(UUID)是用于标识记录的16字节数。ClickHouse提供了 generateuidv4 功能。Datetime64允许存储时间瞬时时间,可以表示为日历日期和一天中的时间Int[8-126]/UInt[8-256]指定数值类型,Int是整数,UInt是无符号整数Float32/Float64表示浮点数float32表示float类型float64表示double类型Decimal32/64/1
原创
37阅读
0评论
0点赞
发布博客于 2 月前

ClickHouse集群探究 3shard_2replicas

1、准备三台物理主机分别命名为CentOSA/CentOSB/CentOSC2、规划物理主机的集群规模和配置图3、按照单机模式分别在CentOSA、CentOSB、CentOSC上安装ClickHouse的服务4、安装完成后,所有节点拷贝/etc/init.d/clickhouse-server脚本在/etc/init.d/clickhouse-server-15、修改clickhouse-server-1脚本#!/bin/sh### BEGIN INIT INFO# Provides:
原创
72阅读
1评论
0点赞
发布博客于 2 月前

SpringCloud 之 注册中心

概述Spring Cloud为开发人员提供了工具,以快速构建分布式系统中的某些常见模式(例如,配置管理,服务发现,断路器,智能路由,微代理,控制总线,一次性令牌,全局锁,领导选举,分布式会话,群集状态)。分布式系统的协调导致了样板式样,并且使用Spring Cloud开发人员可以快速站起来实现这些样板的服务和应用程序。它们可以在任何分布式环境中正常工作,包括开发人员自己的笔记本电脑,裸机数据中心和Cloud Foundry等托管平台。环境搭建①在原有的SpringBoot的依赖中导入以下依赖<
原创
42阅读
1评论
0点赞
发布博客于 2 月前

SpringBoot 集成MyBatis发布Restfull、swagger2

1、导入项目依赖<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.3.5.RELEASE</version> <relativePath/> <!-- lookup parent from re
原创
27阅读
0评论
0点赞
发布博客于 2 月前

Dubbo 编程指南-完整版本

介绍背景随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8B8PAXet-1608021295663)(https://secure-static.wolai.com/static/fsxD3kQnpNh7NfEhXGhR8X/dubbo-architecture-roadmap.jpg)]单一应用架构 - 当网站流量很
原创
31阅读
0评论
1点赞
发布博客于 2 月前

Apache Dubbo编程指南系列之条件路由、路由标签

routing-rule通过 Dubbo 中的路由规则做服务治理,路由规则在发起一次RPC调用前起到过滤目标服务器地址的作用,过滤后的地址列表,将作为消费端最终发起RPC调用的备选地址。条件路由。支持以服务或 Consumer 应用为粒度配置路由规则。标签路由。以 Provider 应用为粒度配置路由规则。后续我们计划在 2.6.x 版本的基础上继续增强脚本路由功能。条件路由应用粒度# app1的消费者只能消费所有端口为20880的服务实例# app2的消费者只能消费所有端口为208
原创
34阅读
0评论
1点赞
发布博客于 2 月前

Apache Dubbo编程指南系列之Dubbo-Admin安装和使用

下载https://github.com/apache/dubbo-admin最新板块,在这个板块中Dubbo-admin已经升级为前后端分离,因此这里对于使用者比较难得是安装Dubbo-admin-ui板块了。dubbo-admin-develop项目部署1.下载dubbo-admin-develop项目,下载地址:https://github.com/apache/dubbo-admin2.解压dubbo-admin-develop.zip,解压后的文件如下:3.将dubbo-admin-se
原创
44阅读
0评论
0点赞
发布博客于 2 月前

Apache Dubbo编程指南系列之本地存根、服务降级、延迟发布、并发控制

Local-stub在 Dubbo 中利用本地存根在客户端执行部分逻辑,调用远程服务后,客户端通常只剩下接口,而实现全在服务器端,但提供方有些时候想在客户端也执行部分逻辑,比如:做 ThreadLocal 缓存,提前验证参数,调用失败后伪造容错数据等等,此时就需要在 API 中带上 Stub,客户端生成 Proxy 实例,会把 Proxy 通过构造函数传给 Stub 1,然后把 Stub 暴露给用户,Stub 可以决定要不要去调 Proxy。①客户端代码public interface IUserS
原创
17阅读
0评论
0点赞
发布博客于 2 月前

Apache Dubbo编程指南系列之泛化引用、Protobuf、泛化服务、回声测试、上下文、隐士参数、参数回调、事件通知

Generic Reference实现一个通用的服务测试框架,可通过 GenericService 调用所有服务实现。泛化接口调用方式主要用于客户端没有 API 接口及模型类元的情况,参数及返回值中的所有 POJO 均用 Map 表示,通常用于框架集成,比如:实现一个通用的服务测试框架,可通过 GenericService 调用所有服务实现。基本类型以及Date,List,Map等不需要转换,直接调用 。<dubbo:reference id="userService"
原创
59阅读
0评论
0点赞
发布博客于 2 月前

Apache Dubbo编程指南系列之多协议、多版本、分组、分组聚合、静态服务、结果缓存

Multiple Protocols在 Dubbbo 中配置多协议,Dubbo 允许配置多协议,在不同服务上支持不同协议或者同一服务上同时支持多种协议。①不同服务不同协议不同服务在性能上适用不同协议进行传输,比如大数据用短连接协议,小数据大并发用长连接协议。<!-- 多协议配置 --><dubbo:protocol name="dubbo" port="20880" /><dubbo:protocol name="rmi" port="1099" /><
原创
20阅读
0评论
0点赞
发布博客于 2 月前

Apache Dubbo编程指南系列之集群、负载均衡

Fault Tolerance Strategy当集群调用失败时,Dubbo提供了多种容错方案,并具有默认的故障转移重试功能。This Invoker is the callable Service’s abstract of theProvider, and the Invoker packaging theProvider’s address and Service’s interface.The Directory represent multiple Invoker,You can thi
原创
25阅读
0评论
0点赞
发布博客于 2 月前

Apache Dubbo编程指南系列之Dubbo架构、注解、springboot集成

介绍背景随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进。单一应用架构 - 当网站流量很小时,只需一个应用,将所有功能都部署在一起,以减少部署节点和成本。此时,用于简化增删改查工作量的数据访问框架(ORM)是关键。垂直应用架构 - 当访问量逐渐增大,单一应用增加机器带来的加速度越来越小,提升效率的方法之一是将应用拆成互不相干的几个应用,以提升效率。此时,用于加速前端页面开发的Web框架(MVC)是
原创
25阅读
0评论
0点赞
发布博客于 2 月前

ClickHouse编程指南-V1.2.0

概述ClickHouse 是一个快速的的开源的OLAP大数据管理系统,该系统面向列存储,并且允许使用SQL实现实时查询生成分析报表。ClickHouse会充分利用所有可用的硬件,以尽可能快地处理每个查询。单个查询的峰值处理性能超过每秒2 TB(解压缩后,仅使用的列)。在分布式设置中,运行状况良好的副本之间的读取会自动保持平衡,以避免增加延迟。ClickHouse DBMS可以配置为位于独立节点上的纯分布式系统,而没有任何单点故障。它还包括许多企业级安全功能和针对人为错误的故障安全机制。ClickHo
原创
134阅读
0评论
3点赞
发布博客于 4 月前

MongoDB Shell 指南

介绍MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引.安装①安装MongoDB服务
原创
101阅读
0评论
0点赞
发布博客于 4 月前

Scala 编程指南-课件版本

概述Scala用一种简洁的高级语言将面向对象和函数式编程结合在一起。传统业务开发- 领域模型设计(面向对象开发); 大数据开发 - 数据集计算模型-(函数式编程)。函数编程强调的是程序对数据的运行算能力。在面向对象计算数据的时候采取代码不动移动数据.在函数式编程计算的时候数据不动代码动。Scala是一门多范式的编程语言,同时支持面向对象和面向函数编程风格。它以一种优雅的方式解决现实问题。虽然它是强静态类型的编程语言,但是它强大的类型推断能力,使其看起来就像是一个动态编程语言一样。Scala语言最终会被翻译
原创
151阅读
2评论
0点赞
发布博客于 4 月前

Apache Flume日志采集 最新版

Apache Flume概述Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。使用Flume这套架构实现对日志流数据的实时在线分析。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的
原创
94阅读
0评论
0点赞
发布博客于 4 月前

Docker 教学版本-v1.0.0

Docker介绍Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。Docker 使用客户端-服务器 (C/S) 架构模式,使用远程API来管理和创建Docker容器。Docker 容器通过 Docker 镜像来创建。容器与镜像的关系类似于面向对象编程中的对象与类。Docker采用 C/S架构 Docker daemon 作为服务端接受来
原创
93阅读
0评论
0点赞
发布博客于 4 月前

Docker可视化图形工具Portainer

简介portainer是一个可视化的容器镜像的图形管理工具,利用Portainer可以轻松构建,管理和维护Docker环境。 而且完全免费,基于容器化的安装方式,方便高效部署。安装1、下载portainer镜像[root@CentOS ~]# docker pull portainer/portainerUsing default tag: latestlatest: Pulling from portainer/portainerd1e017099d17: Pull complete717
原创
126阅读
0评论
0点赞
发布博客于 4 月前

Docker基础命令

镜像[root@CentOS ~]# docker search --helpUsage: docker search [OPTIONS] TERMSearch the Docker Hub for imagesOptions: -f, --filter filter Filter output based on conditions provided --format string Pretty-print search using a Go template
原创
93阅读
0评论
0点赞
发布博客于 4 月前

CentOS7 Docker-CE 版本安装

介绍Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。Docker 使用客户端-服务器 (C/S) 架构模式,使用远程API来管理和创建Docker容器。Docker 容器通过 Docker 镜像来创建。容器与镜像的关系类似于面向对象编程中的对象与类。Docker采用 C/S架构 Docker daemon 作为服务端接受来自客户的请求,
原创
73阅读
0评论
0点赞
发布博客于 4 月前

Apache Hbase VIP版本

Apache HBase介绍HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop的HDFS之上提供了类似于Bigtable的能力。HDFS和HBase之间的关系HBase的全称Hadoop Database,HBase是构建在HDFS之上的一款数据存储服务,所有的物理数据都
原创
94阅读
0评论
0点赞
发布博客于 4 月前

MapReuce 集成 Phoenix

①准备输入表/输出表CREATE TABLE IF NOT EXISTS STOCK ( STOCK_NAME VARCHAR NOT NULL , RECORDING_YEAR INTEGER NOT NULL, RECORDINGS_QUARTER DOUBLE array[] CONSTRAINT pk PRIMARY KEY (STOCK_NAME , RECORDING_YEAR));CREATE TABLE IF NOT EXISTS STOCK_STATS
原创
89阅读
1评论
0点赞
发布博客于 4 月前

Apache Hadoop VIP版

Apache Hadoop## 背景随着信息化互联网|物联网发展要求,万物互联趋势势在必行。随之引发架构的演变由单一架构向高并发分布式架构演变。数据的存储也开始由原始的单机存储演变为分布式存储。JavaWeb:为了应对高并发和分布式提出的是LNMP :(Linux、Nginx、MySQL、PHP )思想。海量数据存储|数据分析 :存储方案(HDFS)、计算方案(Map Reduce、Storm、Spark、Flink)大数据背景分布式:服务间出现跨机器、跨进程通信同一称为分布式存储
原创
170阅读
1评论
0点赞
发布博客于 4 月前

yum 404错误

在使用yum安装软件包时提示标题所示的错误信息,原因估计是yum查找软件包依赖时使用的是过时的缓存,清空更新之后,再次安装软件,问题消失。[root@CentOS ~]# yum clean all[root@CentOS ~]# yum update...
原创
86阅读
0评论
0点赞
发布博客于 4 月前

wagon-maven-plugin 实现远程部署

一、在项目添加如下插件 <build> <extensions> <extension> <groupId>org.apache.maven.wagon</groupId> <artifactId>wagon-ssh</artifactId> <version>2.10<
转载
47阅读
0评论
0点赞
发布博客于 5 月前

HBase协处理器

老版本的 HBase(即 HBase 0.96 之前) 采用 Hadoop RPC 进行进程间通信。在 HBase 0.96 版本以后,引入了新的进程间通信机制 protobuf RPC,基于 Google 公司的 protocol buffer 开源软件。HBase 需要使用 Protobuf 2.5.0 版本。这里简单介绍其安装过程:[root@CentOS7 ~]# yum install -y gcc-c++[root@CentOS7 ~]# tar -zxf protobuf-2.5.0.t.
原创
143阅读
0评论
0点赞
发布博客于 5 月前

CentOS7常见命令技巧

Linux常见配置防火墙配置1、查看服务状态[root@CentOS ~]# systemctl status firewalld● firewalld.service - firewalld - dynamic firewall daemon Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled) Active: active (running) sinc
原创
168阅读
2评论
1点赞
发布博客于 5 月前

Apache Hive编程指南(Hive和HBase不兼容问题)

背景首先,我们在下载官方的hive的发行版,很可能会出现发行版中预编译的hive与我们目标平台的其他组件出现不兼容,例如小编就会经常遇到hive在读取hbase的时候出现这样或者那样的问题,当然也有很多处理和解决的办法,例如通过各种论坛和帖子找需要替换jar包,然后进行替换即可,这种做法虽然最终也能解决但是太费神了,因此小编痛定思痛,觉得直接对hive的源码包进行更改,然后自己编译hive的安装包,这也是决绝版本冲突最直接有效的办法。编译步骤下载hive的对用版本的源码包apache-hive-1.2
原创
250阅读
0评论
0点赞
发布博客于 7 月前

Apache Flink DataStream之CEP复杂事件处理机制

Apche FlinkFlink CEP概念Flink CEP是其实一个Flink库,跟机器学习库是一样的。它是为了更快,更及时的发现一些我们所关心的事情,而不是需要等待几天或则几个月相当长的时间,才发现问题。比如我们的银行卡被人盗刷,如果没有CEP,那么我们即使丢了银行卡,可能也不知道,等我们发现银行卡丢失后,再去挂失等,发现银行卡里已经没钱了。有了CEP,则可以及时提醒,存在银行卡被盗刷的可能性。在应用系统中,总会发生这样或那样的事件,有些事件是用户触发的,有些事件是系统触发的,有些可能是第三方
原创
113阅读
0评论
0点赞
发布博客于 7 月前

Flink Table API& SQL编程指南(Table Factory DDL和Table API)

自定义TableFactoryTableFactory允许从基于字符串的属性创建与表相关的不同实例。调用所有可用的工厂以匹配给定的属性集和相应的工厂类。工厂利用Java’s Service Provider Interfaces (SPI) 进行发现。这意味着每个依赖项和JAR文件都应在META_INF / services资源目录中包含一个文件org.apache.flink.table.factories.TableFactory,该文件列出了它提供的所有可用表工厂。每个Table factory 都
原创
189阅读
0评论
0点赞
发布博客于 7 月前

Flink Table API& SQL编程指南(自定义Sources & Sinks)

TableSourceTableSource提供对存储在外部系统(数据库,键值存储,消息队列)或文件中的数据的访问的通用接口。在TableEnvironment中注册TableSource后,可以通过Table API或SQL查询对其进行访问。它提供了表的schema 以及与该表的schema 映射到行的记录。TableSource[T] { def getTableSchema: TableSchema def getReturnType: TypeInformation[T] def e
原创
139阅读
1评论
0点赞
发布博客于 7 月前

Flink Bacth 编程指南全集

Flink Batch概述Flink中的DataSet程序是实现数据集转换(例如,过滤,映射,连接,分组)的常规程序。最初从某些源创建数据集(例如,通过读取文件或从本地集合创建)。结果通过接收器返回,接收器可以例如将数据写入(分布式)文件或标准输出(例如命令行终端)。数据读入/写出数据读入基于文件文本文件import org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.api.scala._val e
原创
67阅读
0评论
0点赞
发布博客于 7 月前

Flink Table API& SQL编程指南(Connector Sink-【FileSystem、HBase、Kafka、JDBC】)

Connector(Sink)FileSysterm可以将数据写出到文件系统,需要注意目前系统提供文件系统的写出.Sink:BatchSink:AppendStream批处理-SinkTable API方式import org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.table.api.{DataTypes, Table}import org.apache.flink.table.api.scala.
原创
250阅读
0评论
0点赞
发布博客于 7 月前

Flink Table API& SQL编程指南(Dynamic Table、Continuous Querires、Query Restriction)

Streaming ConceptsFlink的Table API或者是SQL的计算针对于一些Batch或者Streaming数据在语义上是一致的。由于关系运算和SQL分析最初是为了对批处理而设计的,所以讲关系查询或者SQL应用在无界的流计算方面不如有界批处理那么好理解。因此我们后面将给大家介绍Flink 的关系API在流计算上的一些概念。Dynamic Table由于传统SQL和关系分析早期的设计主要是用于批处理,因为在关系运算、SQL处理方面与流计算是由一些差异的。下面我们分别从数据、输入形式、计
原创
171阅读
0评论
0点赞
发布博客于 7 月前

Flink Table API& SQL编程指南(Source Connector【FileSystem、HBase、Kafka、JDBC、Hive】)

Connector(Source)Flink的Table API和SQL程序可以连接其他的外围系统,用于读写批和流中的表。其中一个TableSource提供了访问外围系统的数据例如:数据库、key-value仓库、消息队列或者是文件系统等。Table Sink会将计算的结果输出给外部存储系统。这些取决于Source和Sink的类型,他们支持很多种数据类型,例如:CSV、Parquet、ORC等。接下来的我们来看看一些内建的TableSource和Table Sink,然后尝试将他们注册给Flink,当这些
原创
158阅读
0评论
0点赞
发布博客于 7 月前

Flink Table API& SQL编程指南-(概述、依赖结构、概念与常规API)

概述Flink具有两个关系型API- Table API和SQL,这两个API,这两个API统一了流处理和批处理。其中Table API是用Scala或者是Java的语言集成查询API。它允许以非常直观的方式从关系运算符(如select、filter和join)组成查询。Flink的SQL支持基于实现SQL标准的Apache Calcite.无论输入的是DataSet(批)还是DataStream(流)这两套接口中指定的查询具有相同的语义和相同的计算结果。其中Table API和SQL的接口可以紧密的
原创
123阅读
0评论
0点赞
发布博客于 7 月前

Hibernate编程指南-模型驱动、主键映射、关系映射

模型驱动可以通过模型驱动实现快速开发,所谓模型驱动是指先开发模型类和映射文件,数据库表结构由此生成;此外还有数据驱动,是指根据数据库表结构生成模型类和映射文件。模型类是实体类的另一种叫法。Hibernate允许调用SchemaExport/SchemaUpdate将根据实体类映射关系将DDL语句输出到控制台、数据库、文件系统等。StandardServiceRegistry serviceRegistry = new StandardServiceRegistryBuilder() .configu
原创
140阅读
0评论
0点赞
发布博客于 9 月前

Hibernate编程指南-概述、快速构建、HQL初步

Hibernate概述Hibernate ORM使开发人员可以更轻松地编写其数据超出应用程序进程寿命的应用程序。作为对象/关系映射(ORM)框架,Hibernate关注数据持久性,因为它适用于关系数据库(通过JDBC)。Hibernate使您可以遵循自然的面向对象习惯用法(包括继承,多态性,关联,组合和Java集合框架)来开发持久类。 Hibernate不需要接口或基类来用于持久类,并使任何类或数据结构都可以持久化。Hibernate支持延迟初始化,多种获取策略以及具有自动版本控制和时间戳记的乐观锁
原创
153阅读
0评论
0点赞
发布博客于 9 月前

Echars属性深度使用

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>柱状图</title> <!-- 引入 ECharts 文件 --> <script type="text/javascript" s...
原创
100阅读
0评论
0点赞
发布博客于 1 年前

Echars中国城市地图-解决图层分离问题

背景需求①通过中国地图一览所有省份、直辖市、特别行政区的概况②同时需要在地图上标注省份中城市概况解决:在chars中设置geo坐标和引入一个map的seris。因此会出现重合,当用户滚动的时候,会出现图层分离。效果图<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"...
原创
149阅读
0评论
0点赞
发布博客于 1 年前

Echars使用指南

概念介绍ECharts,一个使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖矢量图形库 ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。ECharts 提供了常规的折线图、柱状图、散点图、饼图、K线图,用于统计的盒形图,用于地理数据可...
原创
110阅读
0评论
1点赞
发布博客于 1 年前

SpringBootMyBatis自定义二级缓存

导入依赖 <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.1.5.RELEASE&l...
原创
166阅读
0评论
1点赞
发布博客于 1 年前

SpringBoot数据库读写分离

背景一个项目中数据库最基础同时也是最主流的是单机数据库,读写都在一个库中。当用户逐渐增多,单机数据库无法满足性能要求时,就会进行读写分离改造(适用于读多写少),写操作一个库,读操作多个库,通常会做一个数据库集群,开启主从备份,一主多从,以提高读取性能。当用户更多读写分离也无法满足时,就需要分布式数据库了-NoSQL。正常情况下读写分离的实现,首先要做一个一主多从的数据库集群,同时还需要进行数据...
原创
211阅读
0评论
2点赞
发布博客于 1 年前

MySQL Master Slave搭建

Master配置①修改/etc/my.cnf[mysqld]datadir=/var/lib/mysqlsocket=/var/lib/mysql/mysql.sockuser=mysql# Disabling symbolic-links is recommended to prevent assorted security riskssymbolic-links=0serve...
原创
122阅读
0评论
0点赞
发布博客于 1 年前

CentOS-6.10 MySQL安装

1、检查系统版本[root@CentOS ~]# cat /etc/redhat-releaseCentOS release 6.10 (Final)2、安装MySQL服务[root@CentOS ~]# yum install -y mysql-server3、启动MySQL服务[root@CentOSB ~]# service mysqld startInitializin...
原创
163阅读
0评论
0点赞
发布博客于 1 年前

Apache Flink 状态管理教案

State & Fault ToleranceFlink是一个基于状态计算的流计算服务。Flink将所有的状态分为两大类:keyed state与operator state.所谓的keyed state指的是Flink底层会给每一个Key绑定若干个类型的状态值,特指操作KeyedStream中所涉及的状态。所谓operator state指的是非keyed stream中所涉及状态称为...
原创
104阅读
0评论
0点赞
发布博客于 1 年前

Apache Flink 第二章教案

程序部署本地执行//1.创建流计算执行环境val env = StreamExecutionEnvironment.createLocalEnvironment(3) //2.创建DataStream - 细化 val text = env.socketTextStream("CentOS", 9999) //3.执行DataStream的转换算子 val counts ...
原创
304阅读
0评论
0点赞
发布博客于 1 年前

Apache Flink DataStream 编程全集

概述Flink是构建在数据流之上的有状态计算的流计算框架,通常被人们理解为是第三代大数据分析方案。第一代 - Hadoop的MapReduce计算(静态)、Storm流计算(2014.9) ;两套独立计算引擎,使用难度大第二代 - Spark RDD 静态批处理(2014.2)、DStream|Structured Streaming 流计算;统一计算引擎,难度系数小第三代 - Flin...
原创
369阅读
0评论
0点赞
发布博客于 1 年前

Structured Stream-结构化流-章节1

概述Structured Stream是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。使得用户可以像使用Spark SQL操作静态批处理计算一样使用Structured Stream的SQL操作流计算。当流数据继续到达时,Spark SQL引擎将负责递增地,连续地运行它并更新最终结果。使用 Dataset/DataFrame API 实现对实时数据的聚合、event-time 窗口计...
原创
168阅读
0评论
0点赞
发布博客于 1 年前

#Spark流计算-章节1

概述一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。批量处理模型中,一般先有全量数据集,然后定义计算逻辑...
原创
256阅读
0评论
0点赞
发布博客于 1 年前

Apache Spark Streaming-教案

Spark StreamingSpark Streaming是构建在Spark 批处理之上一款流处理框架。与批处理不同的是,流处理计算的数据是无界数据流,输出也是持续的。Spark Streaming底层将Spark RDD Batch 拆分成 Macro RDD Batch实现类似流处理的功能。因此spark Streaming在微观上依旧是批处理框架。批处理 VS 流处理区别​ ...
原创
183阅读
0评论
0点赞
发布博客于 1 年前

Apache Spark-[共享变量、广播变量、计数器、计算流程]

共享变量当RDD中的转换算子需要用到定义Driver中地变量的时候,计算节点在运行该转换算子之前,会通过网络将Driver中定义的变量下载到计算节点。同时如果计算节点在修改了下载的变量,该修改对Driver端定义的变量不可见。scala> var i:Int=0i: Int = 0scala> sc.textFile("file:///root/t_word").foreac...
原创
94阅读
0评论
0点赞
发布博客于 1 年前

Spark Catalyst初识

Spark Catalyst最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL...
转载
184阅读
0评论
0点赞
发布博客于 1 年前

Spark对接Hive

修改hive-site.xml<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://CentOS:3306/hive?createDatabaseIfNotExist=true</value></property>...
原创
107阅读
0评论
0点赞
发布博客于 1 年前

Apache Spark 转换算子详解

RDD OperationsRDD支持两种类型的操作:transformations-转换,将一个已经存在的RDD转换为一个新的RDD,另外一种称为actions-动作,动作算子一般在执行结束以后,会将结果返回给Driver。在Spark中所有的transformations都是lazy的,所有转换算子并不会立即执行,它们仅仅是记录对当前RDD的转换逻辑。仅当Actions算子要求将结果返回给D...
原创
244阅读
0评论
0点赞
发布博客于 1 年前

Apache Spark-[概述和安装]

Spark概述Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一代大数据处理框架,在设...
原创
272阅读
0评论
0点赞
发布博客于 1 年前

Apache Hive编程指南-蒋中洲

Apache Hive概述Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上,Hadoop 监控作...
原创
271阅读
0评论
0点赞
发布博客于 1 年前

Scala 算子详解-章节7

Java集合和Scala集合相互转换import scala.collection.JavaConverters._object TestJavaScalaCollection { def main(args: Array[String]): Unit = { val arrayList = new util.ArrayList[String]() arrayList....
原创
234阅读
0评论
0点赞
发布博客于 1 年前

Apache Sqoop (最新版本)

概述Apache Sqoop(TM)是一种旨在在Apache Hadoop和结构化数据存储(例如关系数据库)之间高效传输批量数据的工具。通过内嵌的MapReduce程序实现关系型数据库和HDFS、Hbase、Hive等数据的倒入导出。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TelQXgi3-1581128219010)(assets/image-20200...
原创
319阅读
0评论
0点赞
发布博客于 1 年前

Kafka Manager 安装

https://www.cnblogs.com/frankdeng/p/9584870.html
转载
104阅读
0评论
0点赞
发布博客于 1 年前

Apache Impala 安装

软件下载下载地址:https://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.14.0/RPMS/x86_64/impala-2.11.0+cdh5.14.0+0-1.cdh5.14.0.p0.50.el7.x86_64.rpmimpala-catalog-2.11.0+cdh5.14.0+0-1.cdh5.14.0.p0.50.el7....
原创
122阅读
0评论
0点赞
发布博客于 1 年前

Apache Impala介绍&架构

概述Impala直接对存储在HDFS,HBase或Amazon Simple Storage Service(S3)中的Apache Hadoop数据提供快速,交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue中的Impala查询UI)。这为实时或面向批处理的查询提供了一个熟...
原创
208阅读
0评论
0点赞
发布博客于 1 年前

Phoenix JDBC测试

1、在项目导入phoenix-4.10.0-HBase-1.2-client.jar 依赖2、并且将hbase-site.xml导入到项目的resources目录0: jdbc:phoenix:CentOS> select * from t_user;+-----+-----------+--------+--------------------------+---------+|...
原创
109阅读
0评论
0点赞
发布博客于 1 年前

Phoenix SQL语法

数据库CREATE SCHEMACREATE SCHEMA [IF NOT EXISTS] 数据库名字0: jdbc:phoenix:CentOS> create schema if not exists jiangzz;Error: ERROR 725 (43M08): Cannot create schema because config phoenix.schema.isN...
原创
530阅读
0评论
0点赞
发布博客于 1 年前

Apache Hive自定义函数-了解

概述UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成MapReduce程序后,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。目前Hive除去一些内置的函数以外,还提供了一些内置的函数的扩扎接口:UDF:针对单行数据操作,需要继承UDFUDTF:操作一个数据行,产生多个数据行或者是多个列,需要用户继承GenericUDTFUDAF:操作多个数据行...
原创
161阅读
0评论
0点赞
发布博客于 1 年前

GUI Phoenix客户端安装

概述如果您希望使用客户端GUI与Phoenix进行交互,请下载并安装SQuirrel。由于Phoenix是JDBC驱动程序,因此与此类工具的集成是无缝的。以下是下载和安装步骤:点击:http://squirrel-sql.sourceforge.net/下载相应的版本由于小编使用的Mac操作系统,因此小编下载的是install jar of SQuirreL 4.0.0 for Mac...
原创
143阅读
0评论
0点赞
发布博客于 1 年前

Apache Phoenix介绍&安装

概述安装基本使用
原创
229阅读
0评论
1点赞
发布博客于 1 年前

Apache Zeppelin介绍&安装

概述基于数据驱动的网络笔记本,允许用户使用SQL,Scala等进行交互式数据分析和协作文档。Zeppelin允许您无缝连接任何JDBC数据源。 PostgreSQL,Mysql,MariaDB,Redshift,Apache Hive等。官网直达 | 下载zeppelin-0.8.2-bin-all.tgz下载地址:https://mirrors.tuna.tsinghua.edu.cn/...
原创
110阅读
0评论
0点赞
发布博客于 1 年前

Apache Sqoop导入&导出

RDBMS->HDFS全表导入sqoop import \--driver com.mysql.jdbc.Driver \--connect jdbc:mysql://CentOS:3306/test?characterEncoding=UTF-8 \--username root \--password root \--table t_user \--num-mappers...
原创
252阅读
0评论
0点赞
发布博客于 1 年前

hbase-handler解决hive冲突

问题描述1、准备数据7369,SMITH,CLERK,7902,1980-12-17 00:00:00,800,\N,207499,ALLEN,SALESMAN,7698,1981-02-20 00:00:00,1600,300,307521,WARD,SALESMAN,7698,1981-02-22 00:00:00,1250,500,307566,JONES,MANAGER,7839...
原创
422阅读
0评论
0点赞
发布博客于 1 年前

Hbase架构详解

架构组成HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成:HMaster节点、HRegionServer节点、ZooKeeper集群,而在底层,它将数据存储于HDFS中,因而涉及到HDFS的NameNode、DataNode等,总体结构如下:在物理上,HBase由master/slave类型体系结构中的三种服务器组成。RegionServe...
原创
693阅读
0评论
4点赞
发布博客于 1 年前

Hbase-2.2.2源码编译与安装

编译下载Hbase-2.2.0源码https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.2.2/hbase-2.2.2-src.tar.gz安装Maven环境,配置M2_HOMEJAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_221.jdk/Contents/HomeM...
原创
519阅读
0评论
0点赞
发布博客于 1 年前

MariaDB 安装

MariaDB 数据库管理系统是 MySQL 的一个分支,主要由开源社区在维护,采用 GPL 授权许可。开发这个分支的原因之一是:甲骨文公司收购了 MySQL 后,有将 MySQL 闭源的潜在风险,因此社区采用分支的方式来避开这个风险。MariaDB完全兼容mysql,使用方法也是一样的.有的centos7已经默认安装了Mariadb,可以查看自己的有没有安装,没有安装的再进行安装,已经安装了可以...
原创
320阅读
0评论
0点赞
发布博客于 1 年前

Apache Sqoop介绍&安装

概述Apache Sqoop(TM)是一种旨在在Apache Hadoop和结构化数据存储(例如关系数据库)之间高效传输批量数据的工具。通过内嵌的MapReduce程序实现关系型数据库和HDFS、Hbase、Hive等数据的倒入导出。安装1、访问sqoop的网址http://sqoop.apache.org/,选择相应的sqoop版本下载,本案例选择下载的是1.4.7下载地址:https:...
原创
241阅读
0评论
0点赞
发布博客于 1 年前

Azkaban任务调度

概述Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系,这个依赖关系必须是无环的,否则会被视为无效的工作流。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。...
原创
1698阅读
1评论
1点赞
发布博客于 1 年前

Hive SQL案例分析

数据筹备7369,SMITH,CLERK,7902,1980-12-17 00:00:00,800,\N,207499,ALLEN,SALESMAN,7698,1981-02-20 00:00:00,1600,300,307521,WARD,SALESMAN,7698,1981-02-22 00:00:00,1250,500,307566,JONES,MANAGER,7839,1981-0...
原创
284阅读
0评论
0点赞
发布博客于 1 年前

Apache Kafka -消息队列(最新版)

概述Apache Kafka是Apache软件基金会的开源的流处理平台,该平台提供了消息的订阅与发布的消息队列,一般用作系统间解耦、异步通信、削峰填谷等作用。同时Kafka又提供了Kafka streaming插件包实现了实时在线流处理。相比较一些专业的流处理框架不同,Kafka Streaming计算是运行在应用端,具有简单、入门要求低、部署方便等优点。总体来说Kafka这门课程需要大家掌握...
原创
430阅读
0评论
1点赞
发布博客于 1 年前

Hive常规操作-DML操作

加载文件数据到表中LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]0: jdbc:hive2://CentOS:10000> load data local inpath '/root/t_employee...
原创
183阅读
0评论
1点赞
发布博客于 1 年前

Hive常规操作-Hive DDL操作

Database查看数据库0: jdbc:hive2://CentOS:10000> show databases;+----------------+--+| database_name |+----------------+--+| default || test |+----------------+--+2 rows select...
原创
194阅读
0评论
0点赞
发布博客于 1 年前

Apache Hive 概述

Apache Hive概述Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上,Hadoop 监控作...
原创
467阅读
0评论
1点赞
发布博客于 1 年前

SpringBoot + Kafka 集成

@KafkaListeners(value = {@KafkaListener(topics = {"topic04"})})@SendTo(value = {"topic05"})public String listenner(ConsumerRecord<?, ?> cr) { return cr.value()+" mashibing edu";}<pa...
原创
99阅读
0评论
0点赞
发布博客于 2 年前

AzKaban 任务调度管理

https://www.liangzl.com/get-article-detail-10093.html(介绍&安装)https://www.liangzl.com/get-article-detail-10314.html(使用技巧)https://blog.csdn.net/weixin_40434214/article/details/97140612(任务一直preparin...
原创
168阅读
0评论
0点赞
发布博客于 2 年前

Scala编程指南-第二版

Scala Language语言介绍Scala是一门多范式的编程语言,同时支持面向对象和面向函数编程风格。它以一种优雅的方式解决现实问题。虽然它是强静态类型的编程语言,但是它强大的类型推断能力,使其看起来就像是一个动态编程语言一样。Scala语言最终会被翻译成java字节码文件,可以无缝的和JVM集成,并且可以使用Scala调用java的代码库。除了Scala编程语言自身的特性以外,目前比较流...
原创
376阅读
0评论
0点赞
发布博客于 2 年前

Apache Flink 课外阅读

Apache FlinkFlink 概述首先大数据存储和分析引擎Hadoop自2006年诞生。谈及Hadoop大家自然不会对 MapReduce感到陌生,它将计算分为两个阶段,分别为 Map 和 Reduce。MapReduce计算框架虽然借鉴了函数式编程和矢量编程的思想完成了分布式计算。但不得不承认MapReduce在矢量编程结构过于简单,在完成一些比较复杂的高阶计算(例如:机器学习线性回归...
原创
379阅读
0评论
4点赞
发布博客于 2 年前

Structured Streaming 编程指南

简介Structured Streaming 是一个构建在SparkSQL可扩展和容错的流处理引擎.用户可以使用计算静态批处理的SQL表达式实现Streaming计算。内部使用Spark SQL实现对数据流的持续计算和持续输出。用户还可以使用Dataset/DataFrame API实现对流数据的聚合、时间窗口、以及stream-to-batch的处理等,同时Struced Streaming系...
原创
368阅读
0评论
4点赞
发布博客于 2 年前

Apache Spark SQL 章节六00

Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个...
原创
246阅读
0评论
0点赞
发布博客于 2 年前

Spark SQL编程指南-收费版

Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个...
原创
359阅读
0评论
0点赞
发布博客于 2 年前

Apache Flink 流处理(快速入门)

Flink Streaming概述DataStream在Flink中实现了对数据流的Transformation,内部Flink的数据源可以通过各种数据源创建,例如:消息队列、socket streams、文件。流计算的结果通过Sinks输出,例如 将数据写入文件、标准输出等。共同依赖<properties> <flink.version>1.7.1</f...
原创
465阅读
0评论
4点赞
发布博客于 2 年前

分布式文件系统-FastDFS

作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy文件系统概述分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。计算机通过文件系统管理、存储数据,而信息爆炸时代中人们可以获取的数据成指数倍的增长,单纯通过增加硬盘个数来扩展计算机...
原创
419阅读
0评论
2点赞
发布博客于 2 年前

Apache Storm-2.0.0 Trident 新版

Storm Trident作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 百知教育Trident是一个高级抽象,用于在Storm之上进行实时计算。它允许您无缝混合高吞吐量(每秒数百万条消息),有状态流处理和低延迟分布式查询。如果您熟悉Pig或Cascading等高级批处理工具,Trident的概念将非常熟悉 - Trident...
原创
335阅读
0评论
1点赞
发布博客于 2 年前