spark
文章平均质量分 58
朱智文
不求大富大贵,但求一路常青
展开
-
sparksql 操作hive
SparkSQL操作Hive中的表数据spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过sparksql与hive结合实现数据分析将成为一种最佳实践。详细实现步骤如下:1、启动hive的元数据服务hive可以通过服务的形式对外提供元数据读写操作,通过简单的配置即可 编辑 $HIVE_HOME/原创 2017-12-01 16:52:47 · 4345 阅读 · 0 评论 -
第二篇:sparkContext 做了什么(demo 语言:java)共1000篇(spark2.3持续更新中...........)
首先列下sparkContext 做了哪些事,以及市怎么做的1:sparkContext 在driver 端创建2:构造参数:sparkconf 配置文件(配置参数没提到的的变量,将用默认参数使用) 2,1 参数中几个重要的参数:是否允许多个sparkContextconfig.getBoolean("spark.driver.allowMultipleContexts", false) ...原创 2018-06-29 18:21:20 · 947 阅读 · 0 评论 -
第四篇:coalesce 和repartition 在shuffle 和并行度之间的选择(spark2.3持续更新中...........)
coalesce:不需要shuffle, 最大线程数,并行度受分区数的影响def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan { Repartition(numPartitions, shuffle = false, logicalPlan)} repartition: 需要进行shuffle,并行度很高def repa...原创 2018-07-04 17:16:56 · 1485 阅读 · 1 评论 -
第三篇:mapPartition 与map 的区别(demo 语言:java)共1000篇(spark2.3持续更新中...........)
不同点:第一:map 是推模式,mapPartition 是拉模式第二:入参:map 是一个元素,mapPartition 是一个分区的数据相同点:第一:都是进行分区的并行处理。原创 2018-07-04 11:40:47 · 1095 阅读 · 0 评论 -
第一篇:Encoders类研究(demo 语言:java)共1000篇(spark2.3持续更新中...........)
Dataset<CityToCityLevel> resultTmp = result2.map((MapFunction<Row, CityToCityLevel>) row -> { CityToCityLevel citylevel = new CityToCityLevel(); if (row....原创 2018-06-17 15:19:25 · 1962 阅读 · 0 评论 -
spark源码阅读笔记Spark原理(一)基本前提
分布式与集群的区别是什么?集群是个物理形态,分布式是个工作方式。集群:一堆机器,进行统一管理。集群可以运行多个分布式系统,比如同时有hadoop和spark分布式:一个程序或系统运行在不同的机器上,這些机器可以是来自同一个集群也可以是不同集群集群下编程环境的挑战有哪些?第一个是并行化: 这需要以并行的方式重写应用程序,同时这种编程模型能够处理范围广泛的的计算。然而,与其他并行平台相比,集群的第二个...原创 2018-05-10 18:10:32 · 411 阅读 · 0 评论 -
RDD、DataFrame和DataSet的区别
RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。RDD和DataFrameRDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQ原创 2017-12-07 21:05:39 · 286 阅读 · 0 评论 -
Spark RDD、DataFrame和DataSet的区别
RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLContext原创 2017-12-07 20:59:57 · 277 阅读 · 0 评论 -
如何将spark streaming处理结果保存到关系型数据库中
spark streaming是一个分布式高可靠的准实时处理系统,其数据源可以flume、Hdfs、kafka等,其结果可以保存到关系型数据库,HDFS上。保存到HDFS上相对简单,一句话就可以搞定,但是要保存到关系数据库中,相对比较麻烦,既要链接数据库,又要知道数据字段。我们首先写个wordcount程序测试一下,通过网络发数据到spark streaming发数据程序如下原创 2017-12-05 21:32:10 · 1684 阅读 · 0 评论 -
spark流式读取hdfs中数据
名词解释:spark streaming:定义:一个对实时数据进行高容通量、容错处理的流式处理系统,可以对多种数据源进行Map、reduce和join等复杂操作,并将结果保存到外部文件系统、数据库活应用到实时仪表盘。流式数据:像流水一样一点一点流过来流式数据被封装成二进制的流。流式处理:同样像流水一样一点点处理。如果全部接受数据以后在处理的话会有很大延迟也会消耗大量内存原创 2017-12-05 21:18:24 · 3132 阅读 · 0 评论 -
Spark的stage & job & task 到底是什么 ,以及划分原理
这几个概念很容易混淆,需要写一遍文章梳理Spark的stage & job & task 到底是什么 ,以及划分原理Stage 是spark 中一个非常重要的概念 ,在一个job 中划分stage 的一个重要依据是否有shuflle 发生 ,也就是是否会发生数据的重组 (重新组织数据)。在一个stage 内部会有很多的task 被执行,在同一个stage原创 2017-12-05 21:00:15 · 747 阅读 · 1 评论 -
Sparkstreaming基于kafka以Receiver方式获取数据原理和案例实战
本文讲述的内容主要包括:1,SparkStreaming on Kafka Receiver 工作原理机制2,SparkStreaming on Kafka Receiver案例实战3,SparkStreaming on Kafka Receiver源码解析一:SparkStreaming on Kafka Receiver 简介:1、Spark-Strea原创 2017-12-05 20:32:19 · 898 阅读 · 0 评论 -
使用 Kafka 和 Spark Streaming 构建实时数据处理系统
转载:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇原创 2017-12-01 17:25:57 · 1298 阅读 · 0 评论 -
第五篇:spark on mersos 中mersos 解决了什么问题(spark2.3 持续更新中)
1.同一个分布式框架中,不通的计算任务需要不同的资源比如:cpu,核,内存,等,如果没有一个资源管理器,这些任务之间在资源索取上会出现竞争,导致有些任务有足够的资源,有些任务没有足够的资源,有些需要小的资源,缺分占用了大的资源,导致有些任务没有资源,而处于持续等待中,2.不通的分布式计算框架,当他们的任务运行在同一个集群中,一个良好的资源分配和隔离机制也是需要的,mersos 管理所有集群的资源,...原创 2018-07-05 11:04:26 · 261 阅读 · 0 评论