自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 Flink03 transformation-B side outputs

一、前言当您想要拆分数据流时,通常的做法是复制流,然后从每个流过滤出您不想拥有的数据,但是如果使用split 或者side output操作可以更好的解决这种问题。split和select组合使用,对流按照条件进行拆分,取出。但是有一定的局限性,就是只能分流一次,不支持二级分流。side outputs可以支持二级分流。二、实践2.1 split方式分流一次是可以的,分流两次就会报:Consecutive multiple splits are not supported. Spli

2020-07-05 15:01:46 191

原创 Flink获取外部传递参数的两种方式

目录一、前言二、实现2.1 通过参数方式直接传递2.2 通过配置文件来获取参数值一、前言在Spark或者Flink中,我们会对接Kafka,Kafka的参数比较多,如果我们希望通过灵活的方式修改参数,而不是把参数值硬编码到代码中,那么可以通过以下两种方式。二、实现我们可以使用Java的内置工具类ParameterTool.get()的方式获取传递的参数值2.1 通过参数方式直接传递/** * 从args中获取参数值 * 工具类:org.apac.

2020-06-11 10:36:39 4692 1

原创 CDH5.16.2安装部署(二)MySQL5.7.11离线部署

1、解压及创建目录[root@hadoop001 cdh5162]# tar -xf mysql-5.7.11-linux-glibc2.5-x86_64.tar.gz /usr/local/[root@hadoop001 local]# mv mysql-5.7.11-linux-glibc2.5-x86_64 mysql[root@hadoop001 local]# mkdir mysql/arch mysql/data mysql/tmp2、创建my.cnf[root@hadoop001

2020-05-17 18:41:06 542

原创 CDH5.16.2安装部署(三) CDH部署

一、离线部署cm server及agent1.1 拷贝cm包到其他节点[root@hadoop001 cdh5162]# scp cloudera-manager-centos7-cm5.16.2_x86_64.tar.gz hadoop002:~/cdh5162/[root@hadoop001 cdh5162]# scp cloudera-manager-centos7-cm5.16.2_x86_64.tar.gz hadoop003:~/cdh5162/1.2 所有节点创建目录及解压..

2020-05-17 18:34:16 968

原创 CDH5.16.2安装部署(一)准备工作

一、集群规划真正离线部署:mysql cm( server agent 主从架构 ) parcel文件hadoop001:mysql cm-server cm-agent nn snn dn rm nm zkhadoop002:cm-agent dn nm broker zkhadoop003:cm-agent dn nm broker zk原则:1.1 选择第一台 配置不是太强的作为 工具节点 mysql cm-server cm-agent1.2 选择2...

2020-05-17 15:20:01 802

原创 如何监控Spark的作业信息?

前言Spark的Web UI可以监控一些作业信息,但是Web UI是跟随作业的生命周期,不方便随时随地的获取作业的信息。因此,介绍一下以下两种监控方式:Spark自身监控和打造自己的监控官方地址:http://spark.apache.org/docs/latest/monitoring.html一、Spark自身监控Spark自带了history server脚本,只要我们配...

2020-05-03 23:10:31 682

原创 Spark RDD的窄依赖和宽依赖

前言RDD的五大特性之一就是RDD之间有依赖关系,描述了RDD如何从源头计算过来的。这样可以做到容错,如果某一个RDD分区出现错误,可以根据依赖关系重新计算相关的分区,而不需要全部重新计算。如果链路关系太长,可以checkpoint下来本文主要介绍下窄依赖和宽依赖一、窄依赖一个父RDD的分区至多被子RDD的某个分区使用一次1)一个父RDD和一个子RDD的分区是唯一映射的...

2020-05-03 21:22:05 440

原创 解决Spark on YARN时大量jar乱飞的情况

问题重现运行以下这个作业spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \/opt/app/spark-2.4.5-bin-2.6.0-cdh5.16.2/examples/jars/spark-examples_2.12-2.4.5.jar ...

2020-05-03 12:22:05 481

原创 Spark on YARN的两种模式

目录前言一、Client模式二、Cluster模式三、两种模式对比需要在环境变量里设置HADOOP_CONF_DIR或YARN_CONF_DIR,告诉Spark如何连接Hadoop一、Client模式spark-submit \--class com.wsd.sparkcore.scala.SparkWCListenerV2 \--master yarn \--...

2020-05-03 10:24:30 324

原创 Spark集群模式概述

一、官方文档翻译Spark应用是以线程(processes)的方式独立运行在集群上,其协调通过你的程序的main方法的SparkContext(成为驱动程序:driver program)。SparkContext可以运行在不同的资源上(Spark standalone、Mesos、YARN),一旦连接上,Spark会请求Cluster Mananger在集群的节点上启动executor...

2020-05-02 11:17:56 243

原创 SparkCore之RDD算子Action

/** * 1、collect * 1)返回 Array(ele) * 2)实现方法:遍历添加到数组 * 3)需要注意的是因为该方法是把所有的数据放到内存,所以不适合大量数据==>否则OOM * * 2、take * 前n个元素 * collect vs take =====> * collect 是直接计算所有...

2020-05-01 17:20:05 174

原创 SparkCore之RDD算子transformation

1、map vs mapPartitionmap:作用于每一个元素,迭代次数==>元素数mapPartition:作用于每一个分区,迭代次数==>分区数==>因此,对于数据库创建、对象创建等操作,优选mapPartitionmapPartitionWithIndex:返回分区indexval rdd = sc.parallelize(List(1, 2, 3...

2020-05-01 17:05:27 136

原创 SparkCore之RDD概述

一、RDD简介RDD:弹性、分布式、数据集(resilient distrubuted dataset)1、弹性:分区数量可以调整2、分布式:可分区的集合(partitioned collection) 对于分区的数据可以以并行的方式操作(parallel)3、数据集不可变的(immutable):RDDA==>map==>RDDB(新的RDD)简单来说,RD...

2020-05-01 16:11:50 127

原创 Spark概述

一、Spark的产生背景1)MapReduce的局限性编程繁琐,要实现Map、Reduce、然后再组装起来。 计算性能不是很好,MR的Task都是进程(JVM)级别的 不合适交互式/多迭代计算,因为中间数据落地次数较多,磁盘IO、序列化、网络IO频繁 不能实现流式处理2)各种计算框架各自为战如果业务场景既有离线处理、又有实时处理,需要搭建使用多套框架,导致学习、维护都比较麻。...

2020-05-01 12:09:20 256

原创 SparkStreaming消费Kafka数据Offset的管理

参考链接:https://blog.csdn.net/xueba207/article/details/51135423 kafka0.8.2.2http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html一、前言(Kafka2.0.0)Kafka支持producer的幂等性,并不支持...

2020-04-27 23:32:32 711 1

原创 Kafka Eagle的安装部署

一、简介Kafka Eagle是一个用于监控和管理Kafka的系统,可以很方便的管理和可视化Kafka集群的一些信息,例如Broker详情、性能指标趋势、Topic集合、消费者信息等官网:http://www.kafka-eagle.org/下载链接:https://github.com/smartloli/kafka-eagle-bin/archive/v1.4.6.tar.gz...

2020-04-22 19:07:14 645

原创 Spark Streaming中foreachRDD的使用及闭包问题的产生处理

一、前言 foreachRDD是用来把Spark Streaming的数据sink到外部系统,但是使用的时候,这个算子将会被执行在driver进程中,而从driver到executor必然会涉及到序列化的问题。二、测试。需求:把流处理的WC结果写到MySQLMySQLUtilsobject MySQLUtils { /** * 获取连接 ...

2020-04-20 23:15:44 382

转载 Hadoop的压缩格式

1、 hadoop中的压缩格式压缩格式 文件扩展名 是否可分割 压 缩 比 由 高 到 低 压 缩 时 间 由 长 到 慢 BZIP2 .bz2 是 GZIP .gz 否 LZO ...

2020-04-13 08:46:16 309

原创 Kafka的基本使用(一)

一、Kakfa介绍官网:http://kafka.apache.org/中文:http://kafka.apachecn.org/1.1Kafka是什么?Kafka一个高吞吐量的分布式发布订阅消息系统。1.2Kafka干什么?从官网中我们了解到Kafka主要有两类应用1)实时流处理管道,相当于message queue,作为消息中间件,目前被广发使用2)实时流式应用...

2020-04-12 21:49:04 177

原创 Hadoop(四)——MapReduce

1、输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片,每个输入分片针对一个map任务,输入分片存储的并非数据本身,而是一个分片长度和一个记录数据位置的数据。输入分片往往和hdfs的block关系密切,假如我们设定hdfs块的大小是64mb,如果我们输入三个文件,大小分别是3mb、65mb和127mb,那么mapreduce会把3mb文件作为...

2019-09-30 17:14:02 172

原创 Hadoop(三)——YARN

一、YARN是什么YARN是Hadoop的核心组件之一 主要负责资源的管理(将系统资源分配给集群中运行的各种运行程序)和作业的调度(调度在不同的节点上执行的任务) YARN的基本思想是将资源管理和作业调度分解为单独的daemon Yarn的设计目标就是允许我们的各种应用以共享、安全、多租户的形式使用整个集群二、YARN的架构YARN总体上是主/从结构,RM为master,NM为sl...

2019-09-29 15:33:02 179

原创 Hadoop(二)——HDFS

一、 主从结构1.1主节点:NamenNode 接收用户操作请求 维护文件系统的目录结构 管理文件与block之间关系,block与datanode之间关系 1.2 从节点:DataNode 存储文件 文件被分成block存储在磁盘上 为保证数据安全,文件会有多个副本 1.3 Secondary NameNode:合并fsim...

2019-09-29 15:06:50 187

转载 Hadoop(一)——hadoop概述及HA搭建

一、Hadoop是什么?Hadoop是分布式系统基础架构; 主要包括HDFS(分布式文件系统)、YARN(资源调度系统)、MapReduce(分布式计算框架)三部分构成。二、Hadoop能干什么?使用户可以在不了解分布式底层细节的情况下,开发分布式程序; 充分利用集群的威力,进行大规模数据的高速运算和存储。 三、Hadoop HA(zk、ssh已配置好)3.1机器规划...

2019-09-20 16:15:35 342 1

转载 Hadoop YARN

概述Yarn的设计目标就是允许我们的各种应用以共享、安全、多租户的形式使用整个集群。YARN主要有以下几个部分组成:Global ResourceManager,系统中资源分配的老大(Boss),主要由两部分:Scheduler and ApplicationManager。1.1 Scheduler:是ResourceManager专门进行资源管理的一个组件,负责分配NodeManag...

2019-07-18 18:23:02 83

原创 Flink源码编译(Flink1.7.0+Hadoop2.6.0+CDH5.16.1)

Flink源码编译一、概述源码编译文档. https://ci.apache.org/projects/flink/flink-docs-release-1.8/flinkDev/building.html源码下载地址. https://github.com/apache/flink/releases前置条件. Maven 3. JDK8编译命令(hadoop和cdh换成自己...

2019-07-15 10:37:48 2233

原创 Flink对两个并行的数据源进行连接操作,如何保证数据的共享?

当对两个并行的数据源进行连接操作,如何保证数据的共享?1. 场景:在项目中,对两个数据源进行整合,出现了数据丢失的情况。 需求:Kafka数据中domain通过MySQL数据转换为userid Kafka(ip,domain,traffic)=Flink - connect=MySQL(userid,domain)==>Result(ip,userid,traffic) 数据源一...

2019-07-06 16:43:41 8489

原创 h5混合开发之Js和android简单交互

以后可能会用h5混合开发,所以趁着没事了解了下,把自己的见解以及遇到的问题记录下来。先去网上找个demo跟着敲了下,主要学习如何交互,遇到一个问题,回调webview.getUrl()方法报了一个异常,要求所有的webview的方法运行在一个线程中,从网上找到了解决的方法。下面贴上代码,主要部分都有注释!1.index.html

2017-03-15 17:13:13 674

原创 枚举

public enum SexEnum { Man(0, "man"), Woman(1, "woman"); private String desc; private int value; SexEnum(int value, String desc) { this.value = value; this.desc = d

2016-07-24 20:28:52 231

原创 Json数据的解析-Gson

Gson gson=new Gosn();String json = gson.toJson(list);List fromJson = gson.fromJson(json, new TypeToken>(){}.getType());

2016-07-24 20:00:29 216

转载 7种形式的Android Dialog使用举例

转载地址:http://www.oschina.net/question/54100_32486

2016-07-24 19:55:26 284

原创 自定义 Toast View

1.获得Toast view 添加viewToast toast = Toast.makeText(MainActivity.this, "自定义View", Toast.LENGTH_SHORT); LinearLayout linearLayout = (LinearLayout) toast.getView(); Image

2016-07-24 19:52:10 370

原创 全局获取Context

public class MyApplication extends Application { public static Context context; @Override public void onCreate() { super.onCreate(); context = getApplicationContext();

2016-07-24 17:01:17 267

原创 跑马灯的实现

1.单行显示 (singleLine)2. 文字超过显示区域 (ellipsize="marquee")3.获得焦点(重写isFocused())

2016-07-24 16:59:22 266

原创 按钮简单选择器

selectorxmlns:android="http://schemas.android.com/apk/res/android">itemandroid:state_pressed="true">shapeandroid:shape="rectangle">cornersandroid:radius="2dp"/>solidandroid:color="

2016-07-24 16:56:58 267

原创 WOL

LinearLayoutandroid:layout_width="match_parent"android:layout_height="wrap_content">EditTextandroid:layout_width="wrap_content"android:layout_weight="1"android:layout_height="wrap_content"

2016-07-24 16:55:59 370

原创 ImageView ScaleType属性

当内容与控件的大小不匹配时按照什么样的方式其填充1. center 把图片放在ImageView中间,不进行任何缩放2. fitXY 对图片 横向,纵向独立缩放以适应控件大小3. fitCenter 缺省值,图片放在ImageView中央fitStart 开始的地方fitEnd 结束的地方centerCrop 完全覆盖纵横比缩

2016-07-24 16:53:09 256

原创 android四大组件

1.Activity是Android中最基本的一个组件,负责画面展示,UI空间存放,其上的内容直接和用户交互,一个android项目将有多个activity组成2.Service运行在系统后台,没有UI画面,他的作用是为程序提供一些服务。例如:下载任务,音乐播放,数据请求等。android系统内部的service 如:电话,短信,GPS ,WIFI等。3.ContentPr

2016-07-24 16:49:55 207

原创 6.12

<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" android:layout_width="match_parent" android:layout_height="match_parent" android:orientation="vertical"> <com.e

2016-06-12 20:28:53 479

转载 Intent的学习

Intent和IntentFilter详解 http://blog.csdn.net/cnnumen/article/details/84647862.Intent.Action http://www.cnblogs.com/hanyonglu/archive/2012/03/26/2417278.html (打电话那个需要在AndroidManifest.xml获取权限)

2016-06-04 16:24:38 232

原创 jee数据传递中文乱码

解决中文乱码问题(request.setCharacterEncoding(“utf-8”))  注意: 这种方式并不能解决URL传递数据出现的中文乱码问题!比如:form的get方法和 解决方法:              打开tomcat安装目录下的 conf / server.xml 在Connector这一栏中添加URIEncoding=”utf-8”(记得重启服务器)

2016-06-02 15:47:18 287

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除