番茄炒蛋213-CSDN博客

原创 Flink03 transformation-B side outputs

一、前言当您想要拆分数据流时，通常的做法是复制流,然后从每个流过滤出您不想拥有的数据，但是如果使用split 或者side output操作可以更好的解决这种问题。split和select组合使用，对流按照条件进行拆分，取出。但是有一定的局限性，就是只能分流一次，不支持二级分流。side outputs可以支持二级分流。二、实践2.1 split方式分流一次是可以的，分流两次就会报：Consecutive multiple splits are not supported. Spli

2020-07-05 15:01:46 191

原创 Flink获取外部传递参数的两种方式

目录一、前言二、实现2.1 通过参数方式直接传递2.2 通过配置文件来获取参数值一、前言在Spark或者Flink中，我们会对接Kafka，Kafka的参数比较多，如果我们希望通过灵活的方式修改参数，而不是把参数值硬编码到代码中，那么可以通过以下两种方式。二、实现我们可以使用Java的内置工具类ParameterTool.get()的方式获取传递的参数值2.1 通过参数方式直接传递/** * 从args中获取参数值 * 工具类：org.apac.

2020-06-11 10:36:39 4692 1

原创 CDH5.16.2安装部署(二)MySQL5.7.11离线部署

1、解压及创建目录[root@hadoop001 cdh5162]# tar -xf mysql-5.7.11-linux-glibc2.5-x86_64.tar.gz /usr/local/[root@hadoop001 local]# mv mysql-5.7.11-linux-glibc2.5-x86_64 mysql[root@hadoop001 local]# mkdir mysql/arch mysql/data mysql/tmp2、创建my.cnf[root@hadoop001

2020-05-17 18:41:06 542

原创 CDH5.16.2安装部署(三) CDH部署

一、离线部署cm server及agent1.1 拷贝cm包到其他节点[root@hadoop001 cdh5162]# scp cloudera-manager-centos7-cm5.16.2_x86_64.tar.gz hadoop002:~/cdh5162/[root@hadoop001 cdh5162]# scp cloudera-manager-centos7-cm5.16.2_x86_64.tar.gz hadoop003:~/cdh5162/1.2 所有节点创建目录及解压..

2020-05-17 18:34:16 968

原创 CDH5.16.2安装部署(一)准备工作

一、集群规划真正离线部署：mysql cm( server agent 主从架构 ) parcel文件hadoop001：mysql cm-server cm-agent nn snn dn rm nm zkhadoop002：cm-agent dn nm broker zkhadoop003：cm-agent dn nm broker zk原则：1.1 选择第一台配置不是太强的作为工具节点 mysql cm-server cm-agent1.2 选择2...

2020-05-17 15:20:01 802

原创如何监控Spark的作业信息？

前言Spark的Web UI可以监控一些作业信息，但是Web UI是跟随作业的生命周期，不方便随时随地的获取作业的信息。因此，介绍一下以下两种监控方式：Spark自身监控和打造自己的监控官方地址：http://spark.apache.org/docs/latest/monitoring.html一、Spark自身监控Spark自带了history server脚本，只要我们配...

2020-05-03 23:10:31 682

原创 Spark RDD的窄依赖和宽依赖

前言RDD的五大特性之一就是RDD之间有依赖关系，描述了RDD如何从源头计算过来的。这样可以做到容错，如果某一个RDD分区出现错误，可以根据依赖关系重新计算相关的分区，而不需要全部重新计算。如果链路关系太长，可以checkpoint下来本文主要介绍下窄依赖和宽依赖一、窄依赖一个父RDD的分区至多被子RDD的某个分区使用一次1）一个父RDD和一个子RDD的分区是唯一映射的...

2020-05-03 21:22:05 440

原创解决Spark on YARN时大量jar乱飞的情况

问题重现运行以下这个作业spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \/opt/app/spark-2.4.5-bin-2.6.0-cdh5.16.2/examples/jars/spark-examples_2.12-2.4.5.jar ...

2020-05-03 12:22:05 481

原创 Spark on YARN的两种模式

目录前言一、Client模式二、Cluster模式三、两种模式对比需要在环境变量里设置HADOOP_CONF_DIR或YARN_CONF_DIR，告诉Spark如何连接Hadoop一、Client模式spark-submit \--class com.wsd.sparkcore.scala.SparkWCListenerV2 \--master yarn \--...

2020-05-03 10:24:30 324

原创 Spark集群模式概述

一、官方文档翻译Spark应用是以线程(processes)的方式独立运行在集群上，其协调通过你的程序的main方法的SparkContext(成为驱动程序：driver program)。SparkContext可以运行在不同的资源上(Spark standalone、Mesos、YARN)，一旦连接上，Spark会请求Cluster Mananger在集群的节点上启动executor...

2020-05-02 11:17:56 243

原创 SparkCore之RDD算子Action

/** * 1、collect * 1）返回 Array(ele) * 2）实现方法：遍历添加到数组 * 3）需要注意的是因为该方法是把所有的数据放到内存，所以不适合大量数据==>否则OOM * * 2、take * 前n个元素 * collect vs take =====> * collect 是直接计算所有...

2020-05-01 17:20:05 174

原创 SparkCore之RDD算子transformation

1、map vs mapPartitionmap：作用于每一个元素，迭代次数==>元素数mapPartition：作用于每一个分区，迭代次数==>分区数==>因此，对于数据库创建、对象创建等操作，优选mapPartitionmapPartitionWithIndex：返回分区indexval rdd = sc.parallelize(List(1, 2, 3...

2020-05-01 17:05:27 136

原创 SparkCore之RDD概述

一、RDD简介RDD：弹性、分布式、数据集(resilient distrubuted dataset)1、弹性：分区数量可以调整2、分布式：可分区的集合(partitioned collection) 对于分区的数据可以以并行的方式操作(parallel)3、数据集不可变的(immutable)：RDDA==>map==>RDDB(新的RDD)简单来说，RD...

2020-05-01 16:11:50 127

原创 Spark概述

一、Spark的产生背景1）MapReduce的局限性编程繁琐，要实现Map、Reduce、然后再组装起来。计算性能不是很好，MR的Task都是进程(JVM)级别的不合适交互式/多迭代计算，因为中间数据落地次数较多，磁盘IO、序列化、网络IO频繁不能实现流式处理2）各种计算框架各自为战如果业务场景既有离线处理、又有实时处理，需要搭建使用多套框架，导致学习、维护都比较麻。...

2020-05-01 12:09:20 256

原创 SparkStreaming消费Kafka数据Offset的管理

参考链接：https://blog.csdn.net/xueba207/article/details/51135423 kafka0.8.2.2http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html一、前言(Kafka2.0.0)Kafka支持producer的幂等性，并不支持...

2020-04-27 23:32:32 711 1

原创 Kafka Eagle的安装部署

一、简介Kafka Eagle是一个用于监控和管理Kafka的系统，可以很方便的管理和可视化Kafka集群的一些信息，例如Broker详情、性能指标趋势、Topic集合、消费者信息等官网：http://www.kafka-eagle.org/下载链接：https://github.com/smartloli/kafka-eagle-bin/archive/v1.4.6.tar.gz...

2020-04-22 19:07:14 645

原创 Spark Streaming中foreachRDD的使用及闭包问题的产生处理

一、前言 foreachRDD是用来把Spark Streaming的数据sink到外部系统，但是使用的时候，这个算子将会被执行在driver进程中，而从driver到executor必然会涉及到序列化的问题。二、测试。需求：把流处理的WC结果写到MySQLMySQLUtilsobject MySQLUtils { /** * 获取连接 ...

2020-04-20 23:15:44 382

转载 Hadoop的压缩格式

1、 hadoop中的压缩格式压缩格式文件扩展名是否可分割压缩比由高到低压缩时间由长到慢 BZIP2 .bz2 是 GZIP .gz 否 LZO ...

2020-04-13 08:46:16 309

原创 Kafka的基本使用(一)

一、Kakfa介绍官网：http://kafka.apache.org/中文：http://kafka.apachecn.org/1.1Kafka是什么？Kafka一个高吞吐量的分布式发布订阅消息系统。1.2Kafka干什么？从官网中我们了解到Kafka主要有两类应用1）实时流处理管道，相当于message queue，作为消息中间件，目前被广发使用2）实时流式应用...

2020-04-12 21:49:04 177

原创 Hadoop(四)——MapReduce

1、输入分片(Input Split)：在进行map计算之前，mapreduce会根据输入文件计算输入分片，每个输入分片针对一个map任务，输入分片存储的并非数据本身，而是一个分片长度和一个记录数据位置的数据。输入分片往往和hdfs的block关系密切，假如我们设定hdfs块的大小是64mb，如果我们输入三个文件，大小分别是3mb、65mb和127mb，那么mapreduce会把3mb文件作为...

2019-09-30 17:14:02 172

原创 Hadoop(三)——YARN

一、YARN是什么YARN是Hadoop的核心组件之一主要负责资源的管理(将系统资源分配给集群中运行的各种运行程序)和作业的调度(调度在不同的节点上执行的任务) YARN的基本思想是将资源管理和作业调度分解为单独的daemon Yarn的设计目标就是允许我们的各种应用以共享、安全、多租户的形式使用整个集群二、YARN的架构YARN总体上是主/从结构，RM为master，NM为sl...

2019-09-29 15:33:02 179

原创 Hadoop(二)——HDFS

一、主从结构1.1主节点：NamenNode 接收用户操作请求维护文件系统的目录结构管理文件与block之间关系，block与datanode之间关系 1.2 从节点：DataNode 存储文件文件被分成block存储在磁盘上为保证数据安全，文件会有多个副本 1.3 Secondary NameNode：合并fsim...

2019-09-29 15:06:50 187

转载 Hadoop(一)——hadoop概述及HA搭建

一、Hadoop是什么？Hadoop是分布式系统基础架构；主要包括HDFS(分布式文件系统)、YARN(资源调度系统)、MapReduce(分布式计算框架)三部分构成。二、Hadoop能干什么？使用户可以在不了解分布式底层细节的情况下,开发分布式程序；充分利用集群的威力，进行大规模数据的高速运算和存储。三、Hadoop HA(zk、ssh已配置好)3.1机器规划...

2019-09-20 16:15:35 342 1

转载 Hadoop YARN

概述Yarn的设计目标就是允许我们的各种应用以共享、安全、多租户的形式使用整个集群。YARN主要有以下几个部分组成：Global ResourceManager，系统中资源分配的老大(Boss),主要由两部分：Scheduler and ApplicationManager。1.1 Scheduler：是ResourceManager专门进行资源管理的一个组件，负责分配NodeManag...

2019-07-18 18:23:02 83

原创 Flink源码编译(Flink1.7.0+Hadoop2.6.0+CDH5.16.1)

Flink源码编译一、概述源码编译文档. https://ci.apache.org/projects/flink/flink-docs-release-1.8/flinkDev/building.html源码下载地址. https://github.com/apache/flink/releases前置条件. Maven 3. JDK8编译命令(hadoop和cdh换成自己...

2019-07-15 10:37:48 2233

原创 Flink对两个并行的数据源进行连接操作，如何保证数据的共享？

当对两个并行的数据源进行连接操作，如何保证数据的共享？1. 场景：在项目中，对两个数据源进行整合，出现了数据丢失的情况。需求：Kafka数据中domain通过MySQL数据转换为userid Kafka(ip,domain,traffic)=Flink - connect=MySQL(userid,domain)==>Result(ip,userid,traffic）数据源一...

2019-07-06 16:43:41 8489

原创 h5混合开发之Js和android简单交互

以后可能会用h5混合开发，所以趁着没事了解了下,把自己的见解以及遇到的问题记录下来。先去网上找个demo跟着敲了下，主要学习如何交互，遇到一个问题，回调webview.getUrl()方法报了一个异常，要求所有的webview的方法运行在一个线程中，从网上找到了解决的方法。下面贴上代码，主要部分都有注释！1.index.html

2017-03-15 17:13:13 674

原创枚举

public enum SexEnum { Man(0, "man"), Woman(1, "woman"); private String desc; private int value; SexEnum(int value, String desc) { this.value = value; this.desc = d

2016-07-24 20:28:52 231

原创 Json数据的解析-Gson

Gson gson=new Gosn();String json = gson.toJson(list);List fromJson = gson.fromJson(json, new TypeToken>(){}.getType());

2016-07-24 20:00:29 216

转载 7种形式的Android Dialog使用举例

转载地址：http://www.oschina.net/question/54100_32486

2016-07-24 19:55:26 284

原创自定义 Toast View

1.获得Toast view 添加viewToast toast = Toast.makeText(MainActivity.this, "自定义View", Toast.LENGTH_SHORT); LinearLayout linearLayout = (LinearLayout) toast.getView(); Image

2016-07-24 19:52:10 370

原创全局获取Context

public class MyApplication extends Application { public static Context context; @Override public void onCreate() { super.onCreate(); context = getApplicationContext();

2016-07-24 17:01:17 267

原创跑马灯的实现

1.单行显示（singleLine）2. 文字超过显示区域（ellipsize="marquee"）3.获得焦点（重写isFocused()）

2016-07-24 16:59:22 266

原创按钮简单选择器

selectorxmlns:android="http://schemas.android.com/apk/res/android">itemandroid:state_pressed="true">shapeandroid:shape="rectangle">cornersandroid:radius="2dp"/>solidandroid:color="

2016-07-24 16:56:58 267

原创 WOL

LinearLayoutandroid:layout_width="match_parent"android:layout_height="wrap_content">EditTextandroid:layout_width="wrap_content"android:layout_weight="1"android:layout_height="wrap_content"

2016-07-24 16:55:59 370

原创 ImageView ScaleType属性

当内容与控件的大小不匹配时按照什么样的方式其填充1. center 把图片放在ImageView中间，不进行任何缩放2. fitXY 对图片横向,纵向独立缩放以适应控件大小3. fitCenter 缺省值,图片放在ImageView中央fitStart 开始的地方fitEnd 结束的地方centerCrop 完全覆盖纵横比缩

2016-07-24 16:53:09 256

原创 android四大组件

1.Activity是Android中最基本的一个组件，负责画面展示，UI空间存放，其上的内容直接和用户交互，一个android项目将有多个activity组成2.Service运行在系统后台，没有UI画面，他的作用是为程序提供一些服务。例如：下载任务，音乐播放，数据请求等。android系统内部的service 如：电话，短信，GPS ，WIFI等。3.ContentPr

2016-07-24 16:49:55 207

原创 6.12

<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" android:layout_width="match_parent" android:layout_height="match_parent" android:orientation="vertical"> <com.e

2016-06-12 20:28:53 479

转载 Intent的学习

Intent和IntentFilter详解 http://blog.csdn.net/cnnumen/article/details/84647862.Intent.Action http://www.cnblogs.com/hanyonglu/archive/2012/03/26/2417278.html (打电话那个需要在AndroidManifest.xml获取权限)

2016-06-04 16:24:38 232

原创 jee数据传递中文乱码

解决中文乱码问题(request.setCharacterEncoding(“utf-8”)) 注意：这种方式并不能解决URL传递数据出现的中文乱码问题！比如：form的get方法和解决方法: 打开tomcat安装目录下的 conf / server.xml 在Connector这一栏中添加URIEncoding=”utf-8”(记得重启服务器)

2016-06-02 15:47:18 287

空空如也

空空如也