spark
文章平均质量分 71
我终于有blog了
菜鸟一只
展开
-
Spark运行架构
1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:Spark中的Driver即运行上述Application的main()函数并且创建Spar转载 2018-02-02 15:22:48 · 185 阅读 · 0 评论 -
spark executor 相关
RDD在计算的时候,每个分区都会起一个task,所以rdd的分区数目决定了总的的task数目。申请的计算节点(Executor)数目和每个计算节点核数,决定了你同一时刻可以并行执行的task。比如的RDD有100个分区,那么计算的时候就会生成100个task,你的资源配置为10个计算节点,每个两2个核,同一时刻可以并行的task数目为20,计算这个RDD就需要5个轮次。如果计算资源不...转载 2018-12-10 17:54:09 · 189 阅读 · 0 评论 -
sparkSQL(版本2以后)
var spark = SparkSession.builder.master("local").appName("mytest").getOrCreate()//dataset -> rddvar dataset = spark.read.textFile("./test").cachevar result = dataset.rdd.map((a: String) => a...原创 2018-12-10 15:52:50 · 482 阅读 · 0 评论 -
structuredstreaming需要注意的地方
structuredstreaming在版本1上增加了流式的dataset和df,但有很多原来的操作现在不能使用import org.apache.hadoop.util.ShutdownHookManagerimport org.apache.spark.sql.{ForeachWriter, Row, SparkSession}import org.apache.spark.sq...原创 2018-12-14 16:27:23 · 1876 阅读 · 0 评论 -
java使用spark时类型转换
mysparkTest2 my = new mysparkTest2();SparkSession spark = SparkSession. builder(). master( "local" ). appName( "mytest" ).getOrCreate();Dataset<String> logData = spar...原创 2018-12-06 19:02:50 · 1199 阅读 · 0 评论 -
Structured Streaming 编程指南
概述Structured Streaming 是一个基于 Spark SQL 引擎的、可扩展的且支持容错的流处理引擎。你可以像表达静态数据上的批处理计算一样表达流计算。Spark SQL 引擎将随着流式数据的持续到达而持续运行,并不断更新结果。你可以在Scala,Java,Python或R中使用 Dataset/DataFrame API 来表示流聚合,事件时间窗口(event-time wi...转载 2018-12-13 16:15:39 · 1653 阅读 · 1 评论 -
spark状态stream统计uv(updateStateByKey)
import org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, StreamingContext}object KafkaUV { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home....原创 2018-12-13 10:58:42 · 683 阅读 · 0 评论 -
spark使用window来统计近几分钟数据情况
package com.xyfimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object sparkStreamingTest { def main(args: Array[String]){ val conf = new Spar...原创 2018-12-12 15:09:26 · 1759 阅读 · 0 评论 -
hive安装在hadoop集群后的一些坑
1.hive on spark(spark1)首先要想hive on spark的话版本要对齐(spark2之后的貌似还不能成功) 在hive-site里面更改hive.execution.engine = spark spark.home=/home/hadoop/spark-2.3.0-bin-hadoop2.7 spark.submit.deployMode = client or cl...原创 2018-06-13 16:03:15 · 2271 阅读 · 0 评论 -
spark-streaming 消费kafka数据
首先安装hadoop spark集群。接下来是代码: String brokers = "***:9098,***:9098"; String topics = "mail_send_click_test"; SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("streaming ...原创 2018-06-11 14:39:53 · 663 阅读 · 0 评论 -
sparkStreaming需要注意的
1.Window OperationsSpark Streaming also provides windowed computations, which allow you to apply transformations over a sliding window of data. The following figure illustrates this sliding window...原创 2018-12-12 11:21:04 · 235 阅读 · 0 评论