番茄炒蛋213
码龄9年
关注
提问 私信
  • 博客:40,289
    社区:260
    40,549
    总访问量
  • 48
    原创
  • 1,788,014
    排名
  • 11
    粉丝
  • 0
    铁粉

个人简介:stay hungry,stay foolish!

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2016-02-29
博客简介:

mcdull213的博客

查看详细资料
个人成就
  • 获得15次点赞
  • 内容获得3次评论
  • 获得34次收藏
创作历程
  • 19篇
    2020年
  • 7篇
    2019年
  • 1篇
    2017年
  • 28篇
    2016年
成就勋章
TA的专栏
  • 大数据
    8篇
  • 并行度
  • CDH
    3篇
  • Spark
    11篇
  • 监控
    1篇
  • 宽依赖窄依赖
    1篇
  • 运行环境
    1篇
  • 运行模式
    1篇
  • 部署
    1篇
  • SparkCore
    3篇
  • RDD
  • Kafka
    3篇
  • offset
    1篇
  • 消息中间件
    1篇
  • 流处理
    1篇
  • 数据源
  • Flume
  • 工作
  • Java
    9篇
  • Jee
    1篇
  • 算法
    1篇
  • Android
    12篇
  • 数据库
  • 数据结构
  • 计算机网络
  • Flink
    4篇
  • hadoop
    6篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

345人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink03 transformation-B side outputs

一、前言当您想要拆分数据流时,通常的做法是复制流,然后从每个流过滤出您不想拥有的数据,但是如果使用split 或者side output操作可以更好的解决这种问题。split和select组合使用,对流按照条件进行拆分,取出。但是有一定的局限性,就是只能分流一次,不支持二级分流。side outputs可以支持二级分流。二、实践2.1 split方式分流一次是可以的,分流两次就会报:Consecutive multiple splits are not supported. Spli
原创
发布博客 2020.07.05 ·
221 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink获取外部传递参数的两种方式

目录一、前言二、实现2.1 通过参数方式直接传递2.2 通过配置文件来获取参数值一、前言在Spark或者Flink中,我们会对接Kafka,Kafka的参数比较多,如果我们希望通过灵活的方式修改参数,而不是把参数值硬编码到代码中,那么可以通过以下两种方式。二、实现我们可以使用Java的内置工具类ParameterTool.get()的方式获取传递的参数值2.1 通过参数方式直接传递/** * 从args中获取参数值 * 工具类:org.apac.
原创
发布博客 2020.06.11 ·
4835 阅读 ·
1 点赞 ·
1 评论 ·
8 收藏

CDH5.16.2安装部署(三) CDH部署

一、离线部署cm server及agent1.1 拷贝cm包到其他节点[root@hadoop001 cdh5162]# scp cloudera-manager-centos7-cm5.16.2_x86_64.tar.gz hadoop002:~/cdh5162/[root@hadoop001 cdh5162]# scp cloudera-manager-centos7-cm5.16.2_x86_64.tar.gz hadoop003:~/cdh5162/1.2 所有节点创建目录及解压..
原创
发布博客 2020.05.17 ·
1017 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

CDH5.16.2安装部署(二)MySQL5.7.11离线部署

1、解压及创建目录[root@hadoop001 cdh5162]# tar -xf mysql-5.7.11-linux-glibc2.5-x86_64.tar.gz /usr/local/[root@hadoop001 local]# mv mysql-5.7.11-linux-glibc2.5-x86_64 mysql[root@hadoop001 local]# mkdir mysql/arch mysql/data mysql/tmp2、创建my.cnf[root@hadoop001
原创
发布博客 2020.05.17 ·
585 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CDH5.16.2安装部署(一)准备工作

一、集群规划真正离线部署:mysql cm( server agent 主从架构 ) parcel文件hadoop001:mysql cm-server cm-agent nn snn dn rm nm zkhadoop002:cm-agent dn nm broker zkhadoop003:cm-agent dn nm broker zk原则:1.1 选择第一台 配置不是太强的作为 工具节点 mysql cm-server cm-agent1.2 选择2...
原创
发布博客 2020.05.17 ·
836 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

如何监控Spark的作业信息?

前言Spark的Web UI可以监控一些作业信息,但是Web UI是跟随作业的生命周期,不方便随时随地的获取作业的信息。因此,介绍一下以下两种监控方式:Spark自身监控和打造自己的监控官方地址:http://spark.apache.org/docs/latest/monitoring.html一、Spark自身监控Spark自带了history server脚本,只要我们配...
原创
发布博客 2020.05.03 ·
764 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark RDD的窄依赖和宽依赖

前言RDD的五大特性之一就是RDD之间有依赖关系,描述了RDD如何从源头计算过来的。这样可以做到容错,如果某一个RDD分区出现错误,可以根据依赖关系重新计算相关的分区,而不需要全部重新计算。如果链路关系太长,可以checkpoint下来本文主要介绍下窄依赖和宽依赖一、窄依赖一个父RDD的分区至多被子RDD的某个分区使用一次1)一个父RDD和一个子RDD的分区是唯一映射的...
原创
发布博客 2020.05.03 ·
507 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

解决Spark on YARN时大量jar乱飞的情况

问题重现运行以下这个作业spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \/opt/app/spark-2.4.5-bin-2.6.0-cdh5.16.2/examples/jars/spark-examples_2.12-2.4.5.jar ...
原创
发布博客 2020.05.03 ·
522 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Spark on YARN的两种模式

目录前言一、Client模式二、Cluster模式三、两种模式对比需要在环境变量里设置HADOOP_CONF_DIR或YARN_CONF_DIR,告诉Spark如何连接Hadoop一、Client模式spark-submit \--class com.wsd.sparkcore.scala.SparkWCListenerV2 \--master yarn \--...
原创
发布博客 2020.05.03 ·
355 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark集群模式概述

一、官方文档翻译Spark应用是以线程(processes)的方式独立运行在集群上,其协调通过你的程序的main方法的SparkContext(成为驱动程序:driver program)。SparkContext可以运行在不同的资源上(Spark standalone、Mesos、YARN),一旦连接上,Spark会请求Cluster Mananger在集群的节点上启动executor...
原创
发布博客 2020.05.02 ·
272 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkCore之RDD算子Action

/** * 1、collect * 1)返回 Array(ele) * 2)实现方法:遍历添加到数组 * 3)需要注意的是因为该方法是把所有的数据放到内存,所以不适合大量数据==>否则OOM * * 2、take * 前n个元素 * collect vs take =====> * collect 是直接计算所有...
原创
发布博客 2020.05.01 ·
202 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkCore之RDD算子transformation

1、map vs mapPartitionmap:作用于每一个元素,迭代次数==>元素数mapPartition:作用于每一个分区,迭代次数==>分区数==>因此,对于数据库创建、对象创建等操作,优选mapPartitionmapPartitionWithIndex:返回分区indexval rdd = sc.parallelize(List(1, 2, 3...
原创
发布博客 2020.05.01 ·
160 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkCore之RDD概述

一、RDD简介RDD:弹性、分布式、数据集(resilient distrubuted dataset)1、弹性:分区数量可以调整2、分布式:可分区的集合(partitioned collection) 对于分区的数据可以以并行的方式操作(parallel)3、数据集不可变的(immutable):RDDA==>map==>RDDB(新的RDD)简单来说,RD...
原创
发布博客 2020.05.01 ·
165 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark概述

一、Spark的产生背景1)MapReduce的局限性编程繁琐,要实现Map、Reduce、然后再组装起来。 计算性能不是很好,MR的Task都是进程(JVM)级别的 不合适交互式/多迭代计算,因为中间数据落地次数较多,磁盘IO、序列化、网络IO频繁 不能实现流式处理2)各种计算框架各自为战如果业务场景既有离线处理、又有实时处理,需要搭建使用多套框架,导致学习、维护都比较麻。...
原创
发布博客 2020.05.01 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkStreaming消费Kafka数据Offset的管理

参考链接:https://blog.csdn.net/xueba207/article/details/51135423 kafka0.8.2.2http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html一、前言(Kafka2.0.0)Kafka支持producer的幂等性,并不支持...
原创
发布博客 2020.04.27 ·
787 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

Kafka Eagle的安装部署

一、简介Kafka Eagle是一个用于监控和管理Kafka的系统,可以很方便的管理和可视化Kafka集群的一些信息,例如Broker详情、性能指标趋势、Topic集合、消费者信息等官网:http://www.kafka-eagle.org/下载链接:https://github.com/smartloli/kafka-eagle-bin/archive/v1.4.6.tar.gz...
原创
发布博客 2020.04.22 ·
687 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark Streaming中foreachRDD的使用及闭包问题的产生处理

一、前言 foreachRDD是用来把Spark Streaming的数据sink到外部系统,但是使用的时候,这个算子将会被执行在driver进程中,而从driver到executor必然会涉及到序列化的问题。二、测试。需求:把流处理的WC结果写到MySQLMySQLUtilsobject MySQLUtils { /** * 获取连接 ...
原创
发布博客 2020.04.20 ·
421 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hadoop的压缩格式

1、 hadoop中的压缩格式压缩格式 文件扩展名 是否可分割 压 缩 比 由 高 到 低 压 缩 时 间 由 长 到 慢 BZIP2 .bz2 是 GZIP .gz 否 LZO ...
转载
发布博客 2020.04.13 ·
342 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kafka的基本使用(一)

一、Kakfa介绍官网:http://kafka.apache.org/中文:http://kafka.apachecn.org/1.1Kafka是什么?Kafka一个高吞吐量的分布式发布订阅消息系统。1.2Kafka干什么?从官网中我们了解到Kafka主要有两类应用1)实时流处理管道,相当于message queue,作为消息中间件,目前被广发使用2)实时流式应用...
原创
发布博客 2020.04.12 ·
204 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop(四)——MapReduce

1、输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片,每个输入分片针对一个map任务,输入分片存储的并非数据本身,而是一个分片长度和一个记录数据位置的数据。输入分片往往和hdfs的block关系密切,假如我们设定hdfs块的大小是64mb,如果我们输入三个文件,大小分别是3mb、65mb和127mb,那么mapreduce会把3mb文件作为...
原创
发布博客 2019.09.30 ·
237 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多