Spark
王胡雄
半路出家,立地成猿。
展开
-
SparkSQL 中group by、grouping sets、rollup和cube方法详解
https://blog.csdn.net/u011622631/article/details/84786777?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevant.none-task-blog-BlogComme...转载 2020-04-15 00:11:37 · 275 阅读 · 0 评论 -
SparkSQL java.lang.ArrayIndexOutOfBoundsException
如果你是用的Insert into table 你的表 partition(xxxx) as select xxxx from xxxx报的java.lang.ArrayIndexOutOfBoundsException第一:检查字段数和名称是否相等 如果确定没问题第二:删除掉 你的表的 tableProperties如果有用,请点赞...原创 2019-11-21 14:46:14 · 1507 阅读 · 0 评论 -
Spark RDD中有哪些东西
RDD中有以下属性:id : RDD的uniqueID,比如presist时就是根据RDD的id来标记name: RDD的特有的名称,我们可以指定分区器(partitioner),血缘依赖(lineage):源码中体现的名词叫 dependencies上下文对象(SparkContext),存储级别对象(storegelevel):checkpointd...原创 2019-09-18 11:31:50 · 149 阅读 · 0 评论 -
Spark的shuffle和mr的区别?
问题分析:对hadoop和spark的shullfe过程理解不透彻问题解答: mr的shufflemapShuffle数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的在某个节点上启动了mapTask,mapTask读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值...原创 2019-09-13 14:37:07 · 739 阅读 · 0 评论 -
SparkMl,随机森林预测模型demo
// 获取到hive中的数据train_data= spark.sql("select * from events.train_data").withColumnRenamed("user_interested", "label")// 将字段全部双精度df = train_data.select([col(c).cast(DoubleType()) for c in train_dat...原创 2019-09-10 16:46:54 · 587 阅读 · 0 评论 -
Spark master主备切换源码以及流程
/** * ZOOKEEPER: 集群元数据持久化到zookeeper,当master出现异常的时候,zookeeper会通过选举机制选举出新的Master,新的Master接管集群时需要从zookeeper获取持久化信息,并根据这些信息恢复集群状态。 * FILESYSTEM: 集群的元数据持久化到文件系统,当Master出现异常的时候,只要在该机器上重启Master,启动后...原创 2019-08-02 13:53:02 · 342 阅读 · 0 评论 -
SparkContext的架构流程图
这里是SparkContext.createTaskScheduler(),匹配模式,创建TaskScheduler,创建SparkSchedulerBackend,然后 TaskSchedulerImpl调用initialize方法,此方法会将SparkSchedulerBackend对象传进去,填充TaskSchedulerImpl的backend对象。并且会创建pools(资源调度池),...原创 2019-08-01 21:55:09 · 183 阅读 · 0 评论 -
Spark yarn-cluster和yarn-client模式架构
原创 2019-08-01 19:18:17 · 131 阅读 · 0 评论 -
Graphx 学习以及Pregel算法解析
Spark中的Pregel定义如下:def pregel[A: ClassTag]( initialMsg: A, maxIterations: Int = Int.MaxValue, activeDirection: EdgeDirection = EdgeDirection.Either)( vprog: (Ver...转载 2019-08-05 16:36:09 · 329 阅读 · 0 评论 -
Spark tuple计算 bug
原创 2019-07-26 10:55:00 · 219 阅读 · 0 评论 -
Spark SQL 入门
1.RDD转DataFrameval rdd = spark.sparkContext.textFile("xxxxx")val rdd2 = rdd.map(x=>{x.replace("\"","").split(",")}).map(x=>Row(x(0).toInt,x(1),x(2),x(3),x(4),x(5),x(6),x(7),x(8).toInt))...原创 2019-07-30 17:58:40 · 155 阅读 · 0 评论 -
Spark worker driver application的注册 流程 源码分析
原创 2019-08-02 16:20:12 · 95 阅读 · 0 评论 -
Spark架构分析(一)
spark-submit使用standalone模式提交的时候,会通过反射的方式,创建和构造一个DriverActor进程出来Driver进程执行我们编写的代码,构造出SparkContext,SparkContext在初始化的时候,做的最重要的两件事情,就是构造出 DAGScheduler和TaskScheduler.构造TaskScheduler时,通过自己的后台进程进程去连...原创 2019-07-16 18:04:43 · 119 阅读 · 0 评论 -
Spark存储级别的选择
Spark中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个RDD时,每个节点的其它分区都可以使用RDD在内存中进行计算,在该数据上的其他action操作将直接使用内存中的数据。这样会让以后的action操作计算速度加快(通常运行速度会加速10倍)。缓存是迭代算法和快速的交互式使用的重要工具。RDD可以使用persis...转载 2019-05-22 17:22:16 · 3397 阅读 · 0 评论 -
Spark 常用的 transformations(转换)和 actions 操作
转自http://cwiki.apachecn.org/pages/viewpage.action?pageId=2886202下表列出了一些Spark常用的transformations(转换)。详情请参考RDD API文档(Scala,Java,Python,R)和pair RDD函数文档(Scala,Java)。 Transformation(转换) ...转载 2019-05-22 16:10:33 · 364 阅读 · 0 评论