自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zhaoguowei的博客

我的技术成长之路

原创 Flume+Kafka+SparkStreaming整合

SparkStream整合Flume&Kafka打造通用的流处理平台 整个流程如图所示: 使用下面这段简单的代码模拟日志产生: import org.apache.log4j.Logger; /** * Created by Zhaogw&Lss on 2019/11/27....

2019-11-27 13:50:05 67 1

原创 Kafka整合SparkStream两种方式

Kafka整合SparkStream两种方式 官网http://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html 方式1:基于receiver based的实现 1.1 kafka zookeeper环境测试 1.1...

2019-11-26 17:42:28 66 0

原创 SparkStreaming整合Flume的两种方式

Flume整合SparkStream两种方式 官网http://spark.apache.org/docs/latest/streaming-flume-integration.html Apache Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。在这里,我们说...

2019-11-26 11:18:01 134 0

原创 SparkStream整合SparkSql统计wordCount

package com.zgw.spark.streaming import org.apache.log4j.{Level, Logger} import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org...

2019-11-22 17:00:53 65 0

原创 SparkStream实战之黑名单过滤

package com.zgw.spark import org.apache.log4j.{Level, Logger} import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.sp...

2019-11-22 16:35:19 128 0

原创 在IDEA工具中设置Spark程序设置日志打印级别

引入logger4j和slf4j的依赖 <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <versio...

2019-11-22 15:30:42 656 0

原创 sparkStream之Window Operations

Window Operations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。基于窗口的操作会在一个比 StreamingContext 的批次间隔更长的时间范围内,通过整合多个批次的结果,计算出整个窗口的结果。 注意:所有基于窗口的操作都需要两个参数,分别为窗...

2019-11-22 13:15:51 106 0

原创 SparkStream写入数据到mysql

SparkStream写入数据到mysql 在https://blog.csdn.net/qq_35885488/article/details/103185724基础上进行修改 建表语句 create table wordcount( word varchar(50) default null...

2019-11-22 11:27:48 141 0

原创 Spark无状态和有状态转化操作介绍

1. 无状态转化操作 无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转化DStream中的每一个RDD。部分无状态转化操作列在了下表中。注意,针对键值对的DStream转化操作(比如 reduceByKey())要添加import StreamingContext._才能在Sca...

2019-11-21 16:49:51 216 0

原创 com.fasterxml.jackson.module.scala.deser.BigDecimalDeserializer$.handledType()Ljava/lang/Class解决

在调试Spark程序时 报错信息如下: 19/11/21 11:27:13 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@1c65121{/metrics/json,null,AVAILABLE,@Spark}...

2019-11-21 11:36:35 172 0

原创 修改Spark-shell日志打印级别并使用Spark-shell和Spark-submit提交Sparkstream程序

1. 修改Spark-shell日志打印级别 如果觉得 shell 中输出的日志信息过多而使人分心,可以调整日志的级别来控制输出的信息量。你需要在 conf 目录下创建一个名为 log4j.properties 的文件来管理日志设置。Spark开发者们已经在 Spark 中加入了一个日志设置文件的...

2019-11-20 17:37:47 128 0

原创 Spark单机环境安装

1.下载 http://spark.apache.org/downloads.html 2. 解压tar -zxvf spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz -C ~/app/ 3. 配置环境变量 vi ~/.bash_profile export SPARK_HOM...

2019-11-20 14:53:09 823 0

原创 Linux下hadoop的安装(CDH版本)

1. 下载 下载地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz 注意:在安装hadoop之前确保JDK安装成功。 2. 配置免密登录 Hadoop 组件之间需要基于 SSH 进行通讯。 2.1 配置映射 ...

2019-11-20 12:32:53 119 0

原创 Linux下JDK的安装

Linux下JDK的安装 下载并解压 在官网 下载所需版本的 JDK,这里我下载的版本为JDK 1.8 ,下载后进行解压: tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/app/ 设置环境变量 vi ~/.bash_profile export J...

2019-11-20 10:37:39 33 0

原创 linux下maven的安装

本文将介绍下如何在linux环境中安装maven 1. 下载:https://archive.apache.org/dist/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz 2. 解压:tar -zxvf apache-mave...

2019-11-20 10:17:30 24 0

原创 linux下Hbase安装(CDH)

hbase安装 下载地址:http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz 解压:tar -zxvf hbase-1.2.0-cdh5.7.0.tar.gz -C ~/app 配置环境变量:vi ~/....

2019-11-19 14:29:28 80 0

原创 使用kafka消费flume的数据

本篇文章将在Apache Flume介绍和使用案例三这篇文章的基础上将logger sink修改为kafka sink(即整合flume到kafka完成实时数据的采集) 大体流程如图所示: 将配置文件:avro-memory-logger.conf avro-memory-logger.sour...

2019-11-19 10:32:26 69 0

原创 Kafka出现异常kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries.解决

java客户端连接到kafka出现kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries. 下午自己在java客户端连接到kafka,然后就出现了这个错误。按照网上的说法,修改各种配置文件都未...

2019-11-18 16:29:17 293 0

原创 Kafka容错性测试

1. 查看topic信息(“副本”是为该分区复制日志的节点列表,无论它们是引导者还是当前处于活动状态,“ isr”是“同步”副本的集合。这是副本列表的子集,当前仍处于活动状态并追随领导者。) [hadoop@hadoop000 tmp]$ kafka-topics.sh --describe --...

2019-11-18 11:02:22 149 0

原创 Kafka单节点多broker的部署方式

Kafka单节点多broker的部署方式(部署之前保证单节点部署成功) 参考官网 复制配置文件 cp server.properties server-1.properties cp server.properties server-2.properties cp server.prope...

2019-11-18 10:25:41 69 0

原创 kafka的安装和基本使用

kafka概述 详见:http://kafka.apache.org/intro Kafka架构: producer:生产者,就是生产馒头(老妈) cunsumer:消费者,吃馒头(你) broker:篮子 topic:主题,给馒头带一个标签,topic a是给你吃的,topic b 是给你弟弟吃...

2019-11-15 17:26:01 39 0

原创 Linux下Zookeeper安装(CDH)

下载zookeeper并解压 tar -zvxf zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/app/ 环境变量配置vi ~/.bash_profile export ZK_HOME=/home/hadoop/app/zookeeper-3.4.5-cdh5....

2019-11-15 15:13:20 38 0

原创 Apache Flume介绍和使用

Apache Flume是什么 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,通常用于海量数据的实施采集和传输,如:海量日志数据。目前主要使用Flume-NG版本。 下面这张图是Flume的基础架构图: 外部数据源以特定格式向 Flume 发送 events (事件),当...

2019-11-15 11:17:03 50 0

原创 Linux下Flume安装教程(CDH)

Flume安装 1. 安装好JDK 网上资源多,不赘述 2. 安装flume 2.1下载flume http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.7.0.tar.gz 2.2 解压并配置环境变量 解压 tar -zxvf f...

2019-11-14 17:35:38 84 0

原创 IDEA出现error moudle not specified

一图胜千言,直接看。IDEA程序上有个红叉,点击运行时,出现error moudle not specified 解决办法:在弹框中指定moudle名即可解决

2019-11-13 10:37:10 134 0

原创 Scala中的继承和特质

1.继承 1.1 扩展类 在Scala中,让子类继承父类,与Java一样,也是使用extends关键字 class Employee extends Person{ var salary = 0.0 } 继承代表子类可以继承父类的field和method;然后子类可以在自己内部放入父类所没有,...

2019-11-12 15:20:00 61 0

原创 Scala中的方法和函数

Scala中方法的定义 scala> def m2(a:Int,b:Int):Int=a+b m2: (a: Int, b: Int)Int scala> m2(3,4) res1: Int = 7 方法的返回值类型可以不写,编译器可以自动推断出来,但是对于递归函数,必须指定返回类...

2019-11-11 14:15:03 49 0

原创 Scala类与对象

1 Scala中的简单类与无参方法 Scala中类的与Java中有很多相似性 来看一个简单的例子: object CounterApp extends App{ // 1. 在 scala 中,类不需要用 public 声明,所有的类都具有公共的可见性 class Counter{ p...

2019-11-08 14:59:05 27 0

原创 Scala中映射和元组

1 Scala中映射的操作 1.1构造映射 下列代码构建了一个不可变的Map[String,Int],其值不能改变 scala> val stores = Map("Alice" -> 10,"Bob" -> 3,"Cindy&q...

2019-11-06 16:42:41 23 0

原创 Scala控制结构和异常

1 条件表达式 Scala中的 if else 语句和java中的一样,不过Scala中的if else有值,这个值就是跟在if else后面的值 object ScalaActivi extends App{ val x = 10 val s = if (x > 0) 1 else...

2019-11-06 15:31:31 25 0

原创 Scala中的数组介绍与使用

1 定长数组 定义一个长度不变的数组,可以使用Scala中的Array //定义一个Int类型的数组,元素的初始值为0 scala> var nums = new Array[Int](10) nums: Array[Int] = Array(0, 0, 0, 0, 0, 0, 0, 0, ...

2019-11-06 11:17:44 32 0

原创 Scala数据类型与基础操作符

1.1 类型支持 Scala 与 Java有着相同的数据类型,下表列出了 Scala 支持的数据类型: 数据类型 描述 Byte 8 位有符号补码整数。数值区间为 -128 到 127 Short 16 位有符号补码整数。数值区间为 -32768 到 32767 Int 3...

2019-11-05 15:59:33 49 0

原创 在IDEA中搭建Scala开发环境

本篇文章我将介绍如何在IntelliJ IDEA 中搭建Scala的开发环境。希望对正在读这篇文章的你有所帮助 1 安装Java 8 JDK(也称为1.8) 在控制台输入java -version,确保看到下列类型信息 如果java环境低于1.8版本,或没有安装java环境,请戳这里下载新版本的...

2019-11-05 14:18:29 131 0

原创 Scala之模式匹配

模式匹配 1 什么是模式匹配 Pattern matching is a mechanism for checking a value against a pattern. A successful match can also deconstruct a value into its cons...

2019-11-05 10:31:56 49 0

原创 spark中的累加器与广播变量介绍

简介 在spark中,提供了两种类型的共享变量,累加器(accumulator)与广播变量(broadcast variable)。累加器用来对信息进行聚合,而 广播变量用来高效分发较大的对象。 ...

2019-10-30 13:10:22 103 0

原创 使用spark rdd连接mysql数据源

Spark 支持通过Java JDBC访问关系型数据库。需要通过JdbcRDD进行,示例如下: 1. 在pom.xml中添加mysql的依赖 <dependency> <groupId>mysql</groupId> <a...

2019-10-30 10:58:52 221 0

原创 将函数传递给Spark

Spark中的函数传递 Spark的API在很大程度上依赖于在驱动程序中传递函数以在群集上运行。有两种推荐的方法可以做到这一点: 匿名函数语法,可用于简短的代码段。 关于匿名函数,可以参考我的这篇文章或scala官方文档 全局单例对象中的静态方法。例如,您可以如下定义object MyFunct...

2019-10-29 15:21:44 133 0

原创 Spark中的Transformations和Actions介绍

RDD提供了两种类型的操作:transformation和action 所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。 action操作:action是得到一个值,或者一个结果(直接将R...

2019-10-28 13:20:54 296 0

原创 Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解

梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 当Spark读取这些文件作为输入时,会根...

2019-10-25 22:43:55 71 0

原创 Spark RDD

Spark RDD概述 弹性分布式数据集 Resilient Distributed Datasets (RDDs),是Spark中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。创建RDD的方法有两种:并行化 驱动程序中的现有集合,或引用外部存...

2019-10-25 11:01:21 312 0

提示
确定要删除当前文章?
取消 删除