![](https://img-blog.csdnimg.cn/20191018154343909.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark
sisi.li8
热爱技术,拥抱开源
展开
-
Flume+Kafka+SparkStreaming整合
SparkStream整合Flume&Kafka打造通用的流处理平台整个流程如图所示:使用下面这段简单的代码模拟日志产生:import org.apache.log4j.Logger;/** * Created by Zhaogw&Lss on 2019/11/27. */public class LoggerGenerator { private sta...原创 2019-11-27 13:50:05 · 508 阅读 · 1 评论 -
Kafka整合SparkStream两种方式
Kafka整合SparkStream两种方式官网http://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html方式1:基于receiver based的实现1.1 kafka zookeeper环境测试1.1.1.先启动kafka,需要先启动zkcd $ZK_HOME/bin./zkServer.sh s...原创 2019-11-26 17:42:28 · 337 阅读 · 0 评论 -
SparkStreaming整合Flume的两种方式
Flume整合SparkStream两种方式官网http://spark.apache.org/docs/latest/streaming-flume-integration.htmlApache Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。在这里,我们说明如何配置Flume和Spark Streaming以从Flume接收数据。有两种方法。方法一:基于...原创 2019-11-26 11:18:01 · 781 阅读 · 0 评论 -
SparkStream整合SparkSql统计wordCount
package com.zgw.spark.streamingimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.sp...原创 2019-11-22 17:00:53 · 255 阅读 · 0 评论 -
SparkStream实战之黑名单过滤
package com.zgw.sparkimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Seconds, StreamingContext}import or...原创 2019-11-22 16:35:19 · 794 阅读 · 0 评论 -
在IDEA工具中设置Spark程序设置日志打印级别
引入logger4j和slf4j的依赖 <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2.17</version> </dependency>...原创 2019-11-22 15:30:42 · 2362 阅读 · 0 评论 -
sparkStream之Window Operations
Window Operations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。基于窗口的操作会在一个比 StreamingContext 的批次间隔更长的时间范围内,通过整合多个批次的结果,计算出整个窗口的结果。注意:所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长,两者都必须是 StreamContext 的批次间隔的整数倍。窗口时长控制每次计...原创 2019-11-22 13:15:51 · 325 阅读 · 0 评论 -
SparkStream写入数据到mysql
SparkStream写入数据到mysql在https://blog.csdn.net/qq_35885488/article/details/103185724基础上进行修改建表语句create table wordcount(word varchar(50) default nullwordcount int (10) default null);使用foreachRDD...原创 2019-11-22 11:27:48 · 834 阅读 · 0 评论 -
Spark无状态和有状态转化操作介绍
1. 无状态转化操作无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转化DStream中的每一个RDD。部分无状态转化操作列在了下表中。注意,针对键值对的DStream转化操作(比如 reduceByKey())要添加import StreamingContext._才能在Scala中使用。需要记住的是,尽管这些函数看起来像作用在整个流上一样,但事实上每个DStream在内部...原创 2019-11-21 16:49:51 · 1900 阅读 · 0 评论 -
com.fasterxml.jackson.module.scala.deser.BigDecimalDeserializer$.handledType()Ljava/lang/Class解决
在调试Spark程序时 报错信息如下:19/11/21 11:27:13 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@1c65121{/metrics/json,null,AVAILABLE,@Spark}Exception in thread "main" java.lang.NoSuchMethodE...原创 2019-11-21 11:36:35 · 1343 阅读 · 0 评论 -
修改Spark-shell日志打印级别并使用Spark-shell和Spark-submit提交Sparkstream程序
1. 修改Spark-shell日志打印级别如果觉得 shell 中输出的日志信息过多而使人分心,可以调整日志的级别来控制输出的信息量。你需要在 conf 目录下创建一个名为 log4j.properties 的文件来管理日志设置。Spark开发者们已经在 Spark 中加入了一个日志设置文件的模版,叫作 log4j.properties.template。要让日志看起来不那么啰嗦,可以先把这...原创 2019-11-20 17:37:47 · 1617 阅读 · 0 评论 -
Spark单机环境安装
1.下载 http://spark.apache.org/downloads.html2. 解压tar -zxvf spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz -C ~/app/3. 配置环境变量 vi ~/.bash_profileexport SPARK_HOME=/home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0e...原创 2019-11-20 14:53:09 · 1843 阅读 · 1 评论 -
spark中的累加器与广播变量介绍
简介在spark中,提供了两种类型的共享变量,累加器(accumulator)与广播变量(broadcast variable)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的对象。...原创 2019-10-30 13:10:22 · 598 阅读 · 0 评论 -
使用spark rdd连接mysql数据源
Spark 支持通过Java JDBC访问关系型数据库。需要通过JdbcRDD进行,示例如下:1. 在pom.xml中添加mysql的依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId>...原创 2019-10-30 10:58:52 · 967 阅读 · 0 评论 -
将函数传递给Spark
Spark中的函数传递Spark的API在很大程度上依赖于在驱动程序中传递函数以在群集上运行。有两种推荐的方法可以做到这一点:匿名函数语法,可用于简短的代码段。 关于匿名函数,可以参考我的这篇文章或scala官方文档全局单例对象中的静态方法。例如,您可以如下定义object MyFunctions并传递MyFunctions.func1:object MyFunctions { d...原创 2019-10-29 15:21:44 · 330 阅读 · 0 评论 -
Spark中的Transformations和Actions介绍
RDD提供了两种类型的操作:transformation和action所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。action操作:action是得到一个值,或者一个结果(直接将RDD cache到内存中)常见的转换操作有Transformation 算子含义...原创 2019-10-28 13:20:54 · 1068 阅读 · 0 评论 -
Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为I...原创 2019-10-25 22:43:55 · 457 阅读 · 0 评论 -
Spark RDD
Spark RDD概述弹性分布式数据集 Resilient Distributed Datasets (RDDs),是Spark中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。创建RDD的方法有两种:并行化 驱动程序中的现有集合,或引用外部存储系统(例如共享文件系统,HDFS,HBase或提供Hadoop InputFormat的任何数据源)...原创 2019-10-25 11:01:21 · 570 阅读 · 0 评论 -
SparkStream整合hbase
本文将SparkStream和Hbase整合,我将使用Socket流发送数据到SparkStream进行处理,并将处理结果写入Hbase代码实现pom.xml中增加hbase的依赖<!--hbase的依赖--> <dependency> <groupId>org.apache.hbase</groupId> ...原创 2019-10-24 10:26:28 · 748 阅读 · 0 评论 -
SparkStreaming 整合kafka实例
kafka基础核心概念下面介绍Kafka相关概念,以便运行下面实例的同时,更好地理解Kafka.BrokerKafka集群包含一个或多个服务器,这种服务器被称为brokerTopic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生...原创 2019-10-23 10:00:50 · 1056 阅读 · 0 评论 -
SparkStream+kafka报错Fetching topic metadata with correlation id 0 for topics from broker
19/10/22 17:35:44 WARN ClientUtils$: Fetching topic metadata with correlation id 0 for topics [Set(zhaogw)] from broker [id:0,host:dblab-VirtualBox,port:9092] failedjava.nio.channels.ClosedChannelEx...原创 2019-10-22 17:56:20 · 1478 阅读 · 0 评论 -
Spark Streaming处理文件(本地文件以及hdfs上面的文件)
标题介绍文件流之前先介绍一下Dstream下面是来自官网一段的说明,Discretized Streams或DStream是Spark Streaming提供的基本抽象。它表示连续的数据流,可以是从源接收的输入数据流,也可以是通过转换输入流生成的已处理数据流。在内部,DStream由一系列连续的RDD表示,这是Spark对不可变的分布式数据集的抽象(有关更多详细信息,请参见Spark编程指南)。...原创 2019-10-22 15:05:38 · 2225 阅读 · 0 评论 -
Spark Streaming处理Socket流简单实例
在本文中我将在IDEA工具中开发一个SparkStream程序用于监听本机9999端口所接收的数据首先,我们将Spark Streaming类的名称以及从StreamingContext进行的一些隐式转换导入到我们的环境中,以便向我们需要的其他类(如DStream)添加有用的方法。StreamingContext是所有流功能的主要入口点。我们创建具有8个执行线程(最大线程数)和10秒批处理间隔的...原创 2019-10-21 17:15:55 · 1367 阅读 · 0 评论 -
spark-shell报错Caused by: org.apache.derby.iapi.error.StandardException
spark-shell报错Caused by: org.apache.derby.iapi.error.StandardException: Failed to start database 'metastore_db' with class loader org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1@15fd903,...原创 2019-03-13 16:00:30 · 5771 阅读 · 0 评论 -
spark中SQLContext的使用
####SQLContext的使用Spark1.x中Spark SQL的入口点:SQLContext下面是摘自官网的介绍The entry point into all functionality in Spark SQL is the SQLContext class, or one of its descendants. To create a basic SQLContext, all...原创 2019-03-15 17:15:35 · 4067 阅读 · 0 评论 -
Spark连接hive出错,table not found
运行通过maven构建好的jar出错:Exception in thread “main” org.apache.spark.sql.catalyst.analysis.NoSuchTableException: Table or view ‘zgw’ not found in database ‘default’;Exception in thread "main" org.apache.s...原创 2019-04-02 22:09:37 · 2843 阅读 · 0 评论 -
IDEA中查看spark的源码
Spark源码程序包下载地址https://archive.apache.org/dist/spark/下载好后解压到文件夹,然后Attach Sources指定文件夹路径即可原创 2019-10-11 15:45:02 · 826 阅读 · 0 评论