2019年03月_王知无(import_bigdata)

原创 Flink读取kafka数据并写入HDFS

flink的官网对于写入HDFS的例子比较简单，很难跑起来，缺少更详细的描述。目标：本地代码flink streaming读取远程环境的kafka的数据，写入远程环境的HDFS中；核心代码：public static void main(String[] args) throws Exception { // set up the streaming execution......

2019-03-31 23:27:29 7014 1

原创 kafka+flink实现wordCount及数据写入mysql

step1:搭建flink环境 step2:搭建kafka环境（配置系统变量$KAFKA_HOME） step3:搭建zookeeper环境 step4:启动zookeeper：进入zookeeper的bin目录下输入：zkServer.sh start step5:启动kafka:进入kafka的bin目录下输入：kafka-server-start....

2019-03-31 23:12:34 875

原创 Flink读取kafka数据并以parquet格式写入HDFS

大数据业务场景中，经常有一种场景：外部数据发送到kafka中，flink作为中间件消费kafka数据并进行业务处理；处理完成之后的数据可能还需要写入到数据库或者文件系统中，比如写入hdfs中；目前基于spark进行计算比较主流，需要读取hdfs上的数据，可以通过读取parquet：spark.read.parquet(path)数据实体：public class Prti { ...

2019-03-31 22:59:24 7012

原创作为面试官的一点点感悟，谈谈技术人的成长之路

因为工作上的原因，做过几次面试官，面试的同学有应届生，也有工作3-5年的老技术人。最近也频繁作为面试官帮助筛选候选人，中间有很多值得深思的东西，我记录了下来分享给大家。以...

2019-03-31 15:04:37 288

转载王知无的技术周报(3.25-3.29日)

发件人：王知无收件人：我的朋友们本周知识点01我是如何失去一位女粉丝的一位女粉丝管我要一张真人照片，问题来了，她要张真人照片做什么用？02ApacheFlink深度解析-...

2019-03-30 07:00:00 307

转载 Apache-Flink深度解析-State

来源:https://dwz.cn/xrMCqbk5Flink系列精华文章合集入门篇：Flink入门Flink DataSet&DataSteam APIFlin...

2019-03-28 07:00:00 359

转载 Apache-Flink深度解析-Temporal-Table-JOIN

在《JOIN LATERAL》中提到了Temporal Table JOIN，本篇就向大家详细介绍什么是Temporal Table JOIN。在ANSI-SQL 201...

2019-03-27 07:00:00 3885

转载 Apache-Flink深度解析-JOIN-LATERAL-Time Interval(Time-windowed)

实际问题前面章节我们介绍了Flink中对各种JOIN的支持，那么想想下面的查询需求之前介绍的JOIN能否满足？需求描述如下:比如有一个订单表Orders(orderId,...

2019-03-26 07:00:00 769

转载 Spark-在集群上运行Spark

Spark-在集群上运行Spark

2019-03-25 23:54:19 283

原创 Spark源码分析之Spark Shell（上）

终于开始看Spark源码了，先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东，其实里面还是有很多知识点的。另外，从启动脚本入手，是寻找代码入口最简单的方法，很多开源框架，其实都可以通过这种方式来寻找源码入口。先来介绍一下Spark-shell是什么？S...

2019-03-25 23:48:11 384

原创 Spark源码分析之Spark Shell（下）

继上次的Spark-shell脚本源码分析，还剩下后面半段。由于上次涉及了不少shell的基本内容，因此就把trap和stty放在这篇来讲述。上篇回顾：Spark源码分析之Spark Shell（上）function main() { if $cygwin; then # Workaround for issue in...

2019-03-25 23:46:30 363

转载 [大数据之Spark]——Transformations转换入门经典实例

Spark相比于Mapreduce的一大优势就是提供了很多的方法，可以直接使用；另一个优势就是执行速度快，这要得益于DAG的调度，想要理解这个调度规则，还要理解函数之间的依赖关系。本篇就着重描述下Spark提供的Transformations方法.依赖关系宽依赖和窄依赖窄依赖(narrow dependencies)窄依赖是指父RDD仅仅被一个子RDD所使用，子RDD...

2019-03-25 23:44:39 273

转载 [大数据之Spark]——Actions算子操作入门实例

Actionsreduce(func)Aggregate the elements of the dataset using a function func (which takes two arguments and returns one). The function should be commutative and associative so that it can be c...

2019-03-25 23:43:07 262

原创 [大数据之Spark]——快速入门

本篇文档是介绍如何快速使用spark，首先将会介绍下spark在shell中的交互api，然后展示下如何使用java,scala,python等语言编写应用。可以查看编程指南了解更多的内容。为了良好的阅读下面的文档，最好是结合实际的练习。首先需要下载spark,然后安装hdfs，可以下载任意版本的hdfs。Spark Shell 交互基本操作Spark Shell提供给用户一...

2019-03-25 23:41:52 838

转载 Apache-Flink深度解析-JOIN-LATERAL

上一篇《JOIN算子》我们对最常见的JOIN做了详尽的分析，本篇介绍一个特殊的JOIN，那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢，直观说因为J...

2019-03-25 07:00:00 1732

原创 Apache-Kafka核心组件和流程-日志管理器

Apache Kafka 编程实战您可能感兴趣的文章:Apache-Kafka简介Apache Kafka安装和使用Apache-Kafka核心概念Apache-Kafka核心组件和流程-协调器Apache-Kafka核心组件和流程(副本管理器)Apache-Kafka 核心组件和流程-控制器Apache-Kafka核心组件和流程-日志管理器…上一节介绍了协调器。协调器主要负责消...

2019-03-24 16:51:17 332

原创 Apache-Kafka 核心组件和流程-控制器

Apache Kafka 编程实战您可能感性的文章:Apache-Kafka简介Apache Kafka安装和使用Apache-Kafka核心概念Apache-Kafka核心组件和流程-协调器Apache-Kafka核心组件和流程(副本管理器)Apache-Kafka 核心组件和流程-控制器Apache-Kafka核心组件和流程-日志管理器…通过前几章的学习，我们已经从宏观层面了...

2019-03-24 16:50:58 354

原创 Apache-Kafka核心组件和流程(副本管理器)

Apache Kafka 编程实战您可能感性的文章:Apache-Kafka简介Apache Kafka安装和使用Apache-Kafka核心概念Apache-Kafka核心组件和流程-协调器Apache-Kafka核心组件和流程(副本管理器)Apache-Kafka 核心组件和流程-控制器Apache-Kafka核心组件和流程-日志管理器…本章简单介绍了副本管理器，副本管理器负...

2019-03-24 16:50:38 307

原创 Apache-Kafka安装和使用

Apache Kafka 编程实战您可能感性的文章:Apache-Kafka简介Apache Kafka安装和使用Apache-Kafka核心概念Apache-Kafka核心组件和流程-协调器Apache-Kafka核心组件和流程(副本管理器)Apache-Kafka 核心组件和流程-控制器Apache-Kafka核心组件和流程-日志管理器…单机环境官方建议使用JDK 1.8版...

2019-03-24 16:50:19 645

转载 Apache-Kafka核心概念

Apache Kafka 编程实战您可能感性的文章:Apache-Kafka简介Apache Kafka安装和使用Apache-Kafka核心概念Apache-Kafka核心组件和流程-协调器Apache-Kafka核心组件和流程(副本管理器)Apache-Kafka 核心组件和流程-控制器Apache-Kafka核心组件和流程-日志管理器…本章是学习kafka的核心章节，涵盖内...

2019-03-24 16:49:57 268

原创 Apache-Kafka核心组件和流程-协调器

Apache Kafka 编程实战您可能感性的文章:Apache-Kafka简介Apache Kafka安装和使用Apache-Kafka核心概念Apache-Kafka核心组件和流程-协调器Apache-Kafka核心组件和流程(副本管理器)Apache-Kafka 核心组件和流程-控制器Apache-Kafka核心组件和流程-日志管理器…上一节介绍了kafka工作的核心组件–...

2019-03-24 16:49:21 392

原创 Apache-Kafka简介

您可能感兴趣的文章:Apache-Kafka简介Apache Kafka安装和使用Apache-Kafka核心概念Apache-Kafka核心组件和流程-协调器Apache-Kafka核心组件和流程(副本管理器)Apache-Kafka 核心组件和流程-控制器Apache-Kafka核心组件和流程-日志管理器…kafka的定位提到kafka，不太熟悉或者稍有接触的开发人员，第一...

2019-03-24 16:48:51 382

原创 Apache-Kafka简介

您可能感兴趣的文章:Apache-Kafka简介Apache Kafka安装和使用Apache-Kafka核心概念Apache-Kafka核心组件和流程-协调器Apache-Kafka核心组件和流程(副本管理器)Apache-Kafka 核心组件和流程-控制器Apache-Kafka核心组件和流程-日志管理器…kafka的定位提到kafka，不太熟悉或者稍有接触的开发人员，第一...

2019-03-24 16:48:02 376

转载我又双叒叕失去了一位女粉丝

那么问题来了，她要张真人照片做什么用？

2019-03-24 07:00:00 290

原创女装大佬王知无的学习周报3.18-3.22日

发件人：王知无收件人：朋友们友情提示：点击标题可以跳转本周知识点01ApacheFlink-持续查询(ContinuousQueries)在流计算场景中，数据是源源不断的...

2019-03-23 07:00:00 342

转载 Apache-Flink深度解析-TableAPI

您可能感兴趣的文章合集：Flink入门Flink DataSet&DataSteam APIFlink集群部署Flink重启策略Flink分布式缓存Flink重启...

2019-03-22 05:00:00 1996

转载 Apache-Flink深度解析-JOIN 算子

聊什么在《SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式，介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的，那么再深思一下传...

2019-03-21 07:00:00 583 2

转载 Apache-Flink深度解析-SQL概览

SQL简述SQL是Structured Query Language的缩写，最初是由美国计算机科学家Donald D. Chamberlin和Raymond F. Boy...

2019-03-20 07:00:00 503

转载 Apache-Flink深度解析-DataStream-Connectors之Kafka

Kafka 简介Apache Kafka是一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，LinkedIn于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka用于构建实时数据管道和流式应用程序。它具有水平扩展性、容错性、极快的速度，目前也得到了广泛的应用。Kafka不但是分布式消息系统而且也支持流式计算，所以在介绍Kafka在Apache F...

2019-03-19 23:56:21 765

前言首先JAVA的精密，强大，拥有其它语言不可替代的性能和可维护性，早已经是成为最受欢迎的编程语言之一，很多人想进入IT行业，首选的第一门语言就是JAVA。但是，在未来10年肯定是大数据的天下，人工智能的爆发，将会有大量企业会进入大数据领域，而从JAVA程序员转JAVA大数据就会有天然的优势，因为目前大数据的架构基本都是用JAVA语言完成，未来10年，JAVA大数据的需求量会越来越大。现在学习...

2019-03-19 22:17:39 2198

原创 Flink Table&SQL

连接kafkaimport com.tc.flink.conf.KafkaConfig;import org.apache.flink.api.common.typeinfo.Types;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.t...

2019-03-19 22:05:40 494

原创 Flink反压

流处理系统需要能优雅地处理反压（backpressure）问题。反压通常产生于这样的场景：短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压，例如，垃圾回收停顿可能会导致流入的数据快速堆积，或者遇到大促或秒杀活动导致流量陡增。反压如果不能得到正确的处理，可能会导致资源耗尽甚至系统崩溃。目前主流的流处理系统 Storm/JStorm/Spark Streaming/......

2019-03-19 20:57:43 646

原创 Flink动态表

阿里的一篇文章，可以先看看会对动态表有一个模糊的概念动态表就是一个根据流在动态变化的表。从阿里的例子可以看出，当一个表Stream发生改变的时候，就会引起Keyed Table这张表的一个动态变化，表Stream是一个无法撤回的表，Stream表是只能不停增加的一张表，但是Keyed Table 会根据Stream中数据的增长的变化来修改自己count出来的值，随着count值的改变就会使得以c......

2019-03-19 20:54:17 497

原创 Flink-Hbase

现在有这样一个场景，我们需要将hbase做成一个数据流，而不是数据集。根据Flink自带的Flink-Hbase只能帮我们做到数据集，所以这个时候选择了重写Hbase的数据源。package com.yjp.flink.demo11;import org.apache.flink.streaming.api.functions.source.SourceFunction;import or......

2019-03-19 20:50:26 895

转载 Apache-Flink深度解析-DataStream-Connectors之Kafka

Kafka 简介Apache Kafka是一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，LinkedIn于2010年贡献给了Apache基金会并成...

2019-03-19 07:00:00 356

原创 Apache-Flink深度解析-DataStream-Connectors之Kafka

Kafka 简介Apache Kafka是一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，LinkedIn于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka用于构建实时数据管道和流式应用程序。它具有水平扩展性、容错性、极快的速度，目前也得到了广泛的应用。Kafka不但是分布式消息系统而且也支持流式计算，所以在介绍Kafka在Apache Fli...

2019-03-19 01:40:37 388

大数据面试大总结300页.zip

空空如也