![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
throws-Exception
这个作者很懒,什么都没留下…
展开
-
SparkStreaming集成Kafka和Flume、SparkStreaming window使用方法
1、Spark Streaming整合Flume(1)pushmaven: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-flume_2.11</artifactId> <version>2.3.4</version> </dependency>imp原创 2020-08-20 20:17:25 · 173 阅读 · 0 评论 -
SparkStreaming整合kafka——黑名单过滤
import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}import org.apache.spark.streaming.{Secon原创 2020-08-20 20:11:48 · 842 阅读 · 0 评论 -
Spark学习笔记(五)——Flume日志收集、Flume安装配置、工作流程、avro source、taildir source、HDFS sink、拦截器(Interceptors)
FlumeFlume日志收集一、Apache Flume简介二、Flume架构三、Flume安装配置1、安装2、首次测试四、Flume学习1、Flume工作流程2、Flume构成五、Source1、exec source2、spooling directory source3、http source4、avro source5、taildir source六、channel七、Sink1、avro sink2、HDFS sink3、hive sink八、Flume Sink组九、拦截器(Intercepto原创 2020-08-20 19:37:03 · 484 阅读 · 0 评论 -
Spark学习笔记(一)——基础和架构、安装配置、Spark架构设计、Spark API、RDD、RDD操作、RDD转换算子、RDD动作算子
Spark基础和架构Spark基础和架构一、Spark和Hadoop的比较二、Spark优势三、Spark技术栈四、Spark环境部署1、安装配置2、测试五、Spark架构设计1、运行架构2、运行基本流程3、核心组件六、Spark API1、SparkContext2、SparkSession3、RDD核心七、RDD1、RDD概念2、五大特性3、RDD与DAG4、RDD编程流程5、RDD的创建(1)使用集合创建RDD(2)通过加载文件产生RDD(3)创建PairRDD的方法(4)其他创建RDD的方法八、RD原创 2020-08-10 19:21:32 · 337 阅读 · 0 评论 -
Spark学习笔记(二)——分布式计算原理
Spark分布式计算原理一、Spark WordCount运行原理图中过程解析A:val lines: RDD[String] = sc.textFile("hdfs"://)//这行代码会生成两个RDD(HadoopRDD、MapPartitionsRDD)//将内容分词后压平B:val words: RDD[String] = lines.flatMap(.split(" "))//这行代码通过flatMap生成一个新的RDD//将单词和1组合到一起C:val pairs: RDD[原创 2020-08-10 19:25:52 · 631 阅读 · 0 评论 -
Spark学习笔记(三)——SparkSQL(DataSet、DataFrame、hive集成、连接mysql)
Spark SQLSpark SQL精华及与Hive的集成一、Spark SQL简介1、SQL on Hadoop2、Spark SQL前身3、Spark SQL架构4、Spark SQL运行原理5、Catalyst优化器二、Spark Dataset API1、创建2、Dataset3、演练三、Spark DataFrame API1、介绍2、对比3、创建4、常用操作5、RDD和DataFrame转换四、Spark SQL操作外部数据源1、Parquet文件2、集成hive3、RDBMS表Spark S原创 2020-08-17 09:04:31 · 411 阅读 · 0 评论 -
Spark学习笔记(四)——SparkStreaming、DStream、Receivers、编程实例、整合Flume、整合Kafka、整合Spark SQL
Spark Streaming基于Spark Streaming的流数据处理和分析一、流是什么二、Spark Streaming1、简介2、流数据处理框架3、内部工作流程三、StreamingContext1、创建2、入门 wordcount3、transform包装四、DStream1、概念2、Input DStreams与接收器(Receivers)3、Dstream创建(内建流式数据源)4、DStream支持的转换算子五、SparkStreaming编程实例1、HDFS2、Spark Streamin原创 2020-08-20 12:21:57 · 374 阅读 · 0 评论 -
Spark运行日志去除——log4j.properties
log4j.rootLogger=ERROR,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d %p [%-20c] - %m%nlog4j.appender.logfile=org.apache.log4j.Fil原创 2020-08-17 09:22:33 · 1251 阅读 · 0 评论 -
Spark——基于Spark Graphx的图形数据分析
基于Spark Graphx的图形数据分析官网指导https://spark.apache.org/docs/latest/graphx-programming-guide.html#pregel-api一、图计算的好处许多大数据以大规模图或网络的形式呈现许多非图结构的大数据,常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性二、图的概念1、图的基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构通常表示为二元组:Gragh=(原创 2020-08-17 08:51:46 · 885 阅读 · 0 评论 -
Spark学习——装载数据源
Spark装载CSV数据源文件预览使用SparkContextval lines = sc.textFile("file:///home/kgc/data/users.csv")val fields = lines.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(l => l.split(","))val fields = lines.filter(l=>l.原创 2020-08-17 08:44:34 · 144 阅读 · 0 评论 -
SparkStreaming——SparkStreaming读写Kafka
SparkStreaming读Kafka:无状态流处理:object MyReadKafkaHandler { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("mytest").setMaster("local[2]") val sc = SparkContext.getOrCreate(conf)// 流处理的上下文类 val ssc = new Stre原创 2020-08-14 09:51:11 · 449 阅读 · 0 评论 -
Spark装载数据源
Spark装载CSV数据源文件预览使用SparkContextval lines = sc.textFile("file:///home/kgc/data/users.csv")val fields = lines.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(l => l.split(","))val fields = lines.filter(l=>l.原创 2020-07-29 16:59:17 · 124 阅读 · 0 评论 -
spark在linux下运行jar包
在linux上运行jar包pom文件:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/x原创 2020-07-29 16:53:28 · 1676 阅读 · 0 评论