2019年11月_晚风中的自由

原创【Spark】Spark Stream 整合 Kafka（二）

一、集成的方式1、基于接收者方式；从kafka接收的数据，被放在spark执行器；然后stream处理数据；但在接收失败的情况下，可能会丢失数据；2、直接模式，没有接收者；二、基于接收者方式1、复制kafka依赖包cp /opt/modules/spark-1.3.0-src/external/kafka/target/spark-streaming-kafka_2.10-1...

2019-11-30 22:32:04 171

原创【Spark】Spark Stream 整合 Kafka（一）

一、Kafka 简介Kafka：高吞吐量的分布式消息系统，发布-订阅，分布式提交日志；特点：快，可扩展性，稳定性，分布式；Apache Kafka 是分布式发布-订阅消息系统。它最初由linkedin公司开发，之后成为Apache项目的一部分。Kafka是一种快速的、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。Apache Kafka 与传统消息系统相比，有...

2019-11-30 19:38:09 234

原创【Spark】Spark Stream 整合 Flume

官网教程：http://spark.apache.org/docs/1.3.0/streaming-flume-integration.html有两种集成方式：1、flume把数据推给stream2、stream从flume拉取数据基于方式1讲解Flume有3个组件：source -> channel -> sink (streaming)1、在fl...

2019-11-29 23:13:20 114

原创【Spark】Spark Stream 读取 HDFS 数据

从HDFS读取文本数据作为DStream准备数据，本地目录/opt/datas/sparkDatas 下有文件wc.txt 内容如下：hadoop spark streamingspark hdfs streamingspark启动hadoop的namenode 和 datanodesbin/hadoop-daemon.sh start namenodesbin/ha...

2019-11-27 23:49:40 1188

原创【Spark】Spark Stream 入门案例

官方案例：http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSpark Stream Demo，从socket实时读取数据，进行实时处理首先检查有无安装 ncrpm -qa | grep nc如果没有则要先安装nc；下载：http://vault.centos.org/6.6/os/x86_...

2019-11-26 21:49:56 147

1.rpm简介一种用于互联网下载包的打包及安装工具，它包含在某些Linux分发版中，它生成具有RPM扩展名的文件，RPM是RedHat Package Manager（RedHat软件包管理工具）的缩写，类似windows的setup.exe，这一文件格式名称虽然打上了RedHat的标志，但理念是通用的Linux的分发版本都有采用（suse,redhat, centos 等等），可以算是公认的...

2019-11-26 21:13:16 1021

原创【Spark】Spark运行在YARN上

Spark on YARN步骤：1）客户端提交应用程序给resourcemanager；2）resourcemanager为应用分配 spark application master；3）sparkapplication master 向resourcemanager 申请资源 container，container可以用于运行executor4）resourcemanag...

2019-11-26 19:40:15 1148

原创【阿里云】阿里云ECS入门笔记

一、开通产品下完订单后，开通产品。选择操作系统和版本，这里选的是centos，6.9 64位。会验证手机号。二、进入控制台控制台地址：https://ecs.console.aliyun.com/开通产品后，要过1-5分钟才能看到实例；进入实例；可以看到实例，有2个ip地址，公有和私有三、重置密码选中实例，点击重置实例密码按要求填写密码...

2019-11-24 21:35:14 238

原创【Spark】使用spark-submit部署应用，Spark Application 运行的两种方式Client和Cluster

Spark为各种集群管理器提供了统一的工具来提交作业，这个工具是spark-submit。如果在调用spark-submit时除了脚本或JAR包的名字之外没有其他的参数，那么这个Spark应用只会在本地执行。当我们希望将应用提交到Spark独立集群上的时候，可以将集群的地址和希望启动的每个执行器进程的大小作为附加标记提供。--master标记指定要连接的集群URL；spark-su...

2019-11-24 17:52:35 710

原创【Spark】Spark Application 监控，HistoryServer历史服务器配置使用

一、增加配置1、spark-1.3.0-bin-2.5.0-cdh5.3.6/conf 目录下spark-env.sh文件修改；设置log文件放在 hdfs目录/user/spark/eventlogsSPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=hdfs://hadoop-senior.ibeifeng.com:8020...

2019-11-23 21:15:52 827

原创【Spark】使用IDEA开发Spark Application以及打包测试

一、IDEA新建scala应用Create New Project选择scala，IDEA，点击next项目名称：sparkApp，选择JDK，选择Scala SDK，点击finish等待加载项目，项目目录结构如下打开file下的 Project structure新建目录和设置属性：把src设置为source；在src下新建2个目录，main和...

2019-11-23 18:03:13 287

原创【Spark】Spark Core应用案例讲解

一、统计单词hdfs的文件/user/root/mapreduce/wordcount/input/wc.input 有以下内容：hadoop hivehive hadoophbase sqoophbase sqoophadoop hive启动spark-shellbin/spark-shell读取wc.input 做为rddval rdd = sc.tex...

2019-11-23 15:31:57 578

原创【Spark】Spark RDD Shuffle 讲解

一、概述Spark RDD Shuffle类似mapreduce中的shuffle。bucket相当于分区。什么是spark shuffle？shfulle是spark对数据进行重分区的机制。哪些操作会引起shuffle？具有重新调整分区的操作，eg：repartition，coalesce*ByKey，eg：groupByKey，reduceByKey关联操作：e...

2019-11-10 16:12:27 522

原创【Spark】数据分区

数据分区partitionBy分区在分布式程序中，通信的代价是很大的，因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样，Spark 程序可以通过控制RDD 分区方式来减少通信开销。分区并不是对所有应用都有好处的——比如，如果给定RDD 只需要被扫描一次，我们完全没有必要对其预先进行分区处理。只有当数据集多次在诸如连接这种基于键的操作...

2019-11-09 08:00:00 371

原创【Spark】键值对操作，pair RDD的行动操作

一、概述和转化操作一样，所有基础RDD 支持的传统行动操作也都在pair RDD 上可用。Pair RDD提供了一些额外的行动操作，可以让我们充分利用数据的键值对特性。二、详解1、countByKey() 对每个键对应的元素分别计数示例：val rdd = sc.parallelize(List((1, 2), (3, 4), (3, 6)))rdd....

2019-11-06 20:42:42 162

原创【Spark】键值对操作，pair RDD的转化操作

一、Pair RDD 键值对的创建 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被成为pair RDD。pair RDD是很多程序的构成要素，因为它提供了并行操作各个键或跨节点重新进行数据分组的操作接口。例如，pair RDD提供reduceByKey() 方法，可以分别归约每个键对应的数据，还有join()方法，可以把两个RDD中键相同的元素组合到一起，合并...

2019-11-06 19:07:01 744

原创【Spark】RDD依赖讲解（宽依赖和窄依赖）

一、窄依赖（narrow dependencies）1、子RDD的每个分区依赖于常数个父分区（既与数据规模无关）2、输入输出一对一的算子，且结果RDD的每个分区结构不变，主要是map、flatMap3、输入输出一对一，但结果RDD的结构发生了变化，如union、coalesce4、从输入中选择部分元素的算子，如filter、distinct、subtract、sample二、宽...

2019-11-05 19:46:08 1146 2

原创【Spark】Spark RDD操作、转化操作和行动操作

一、创建RDD1、外部数据集（external datasets）var rdd = sc.textFile("hdfs://hadoop-senior.ibeifeng.com:8020/user/root/mapreduce/wordcount/input/wc.input")rdd.collectres6: Array[String] = Array(hadoop hive, ...

2019-11-03 23:18:28 337

原创【Spark】Spark RDD五大特性讲解（以wordcount案例和mapreduce进行比较）

RDD：弹性分布式数据集RDD的特点：1、一系列的分片：比如说64M一片；类似于hadoop中的split；2、在每个分片上都有一个函数去迭代/执行/计算它；3、一系列的依赖：RDDa转化为RDDb，RDDb转化为RDDc，那么RDDc就依赖于RDDb，RDDb依赖于RDDa；4、对于key-value的RDD可指定一个partitioner，告诉它如何切片；常用的有hash和...

2019-11-03 20:34:04 337

晚风中的自由