spark自定义分区

目录一、需求二、代码展示三、数据展示四、结果展示五、三种分区方式介绍       1、默认分区方式(实际上是HashPartitioner)       2、HashPartitioner分区       3、RangePartitioner分区——————————————————————————————–一、需求       防止大量数据倾斜,自定义Partition的函数,map阶段使用元祖(i...
阅读(229) 评论(2)

Spark算子分类及功能描述

目录:一、简介二、Value型Transformation算子三、Key-Value型Transformation算子四、Actions算子————————————————————————————————————————–一、简介spark算子大致上可分三大类算子:        1、Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据...
阅读(258) 评论(0)

SparkStreaming在启动执行步鄹和DStream的理解

目录:SparkStreaming启动执行步鄹:DStream和Rdd的理解Linux中发送数据SparkStreaming代码如下结果展示:————————————————————————————————————————–SparkStreaming启动执行步鄹:1、加载SparkConf和StreamingContext 2、建立DStream接收器val lines = ssc.socket...
阅读(733) 评论(0)

Spark的有向无环图DAG(代码及图解)

目录:1、有向无环图2、代码结构3、代码学习步鄹及方法4、重点代码讲解5、代码展现6、运行结果1、有向无环图在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。 性质:有向无环图的生成树个数等于入度非零的节点的入度积。 2、代码结构...
阅读(2485) 评论(0)

[编程语言]SparkTask未序列化(Task not serializable)问题分析

问题描述及原因分析       在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相应的配置进行变换等。为了解决上述Task未序列化问题,这里对其进行了研究和总结。       出现“org.apache.spark....
阅读(343) 评论(0)

Spark:本地连接集群运行Saprk程序

本地连接集群运行Saprk程序两种方式目录1)通过Maven(简单一些,建议用这种)2)下载Saprk环境1)通过Maven 备注:java是1.8版本,scala是2.11.6版本 maven中加入的依赖如下: org.apache.spark spark-sql_2.11</...
阅读(820) 评论(0)

Spark的一些问题

yarn资源申请不足,导致任务持续等待2016-09-20 16:49:25,657 [WARN ] 70 org.apache.spark.scheduler.cluster.YarnScheduler - Initial job has not accepted any resources; check your cluster UI to ensure that workers are re...
阅读(461) 评论(2)

Spark优化及总结

转自:http://blog.csdn.net/ljj657137723/article/details/52134962       本篇文章是关于我在学习Spark过程中遇到的一些问题及总结,分为Spark优化、RDD join问题、遇到的问题、总结、参考资料几个部分。 一:Spark优化 1、设置序列化器为KryoSerializer   Spark默认使用的是Java序列化机制,但...
阅读(798) 评论(0)

DataFrame:通过SparkSql将Json数据转为DataFrame

import java.text.DecimalFormat import com.alibaba.fastjson.JSON import com.donews.data.AppConfig import com.typesafe.config.ConfigFactory import org.apache.spark.sql.{SaveMode, DataFrame, SQLContext}...
阅读(1935) 评论(0)

DataFrame:通过SparkSql将scala类转为DataFrame

package com.donews.data.hbaseuser import com.alibaba.fastjson.JSON import com.donews.data.AppConfig import com.typesafe.config.ConfigFactory import org.apache.spark.sql.{Row, SaveMode, DataFrame, SQ...
阅读(1244) 评论(0)

DataFrame自定义函数

我这里是一个简单的两个数相加,是为了取代sum聚合函数。官网: http://spark.apache.org/docs/latest/sql-programming-guide.html#udf-registration-moved-to-sqlcontextudf-java–scala第一、写函数 /** * Created by silentwolf on 2016/7/12. */...
阅读(773) 评论(0)

SparkSql中的ISNULL和CASE WHEN方法

元数据 data.json {“name”:”Yuhui”} {“name”:”lihui”, “age”:30} {“name”:”Justin”, “age”:19}people.json {“name”:”Yuhui”,”age”:29} {“name”:”lihui”, “age”:33} {“name”:”Leijiexu”, “age”:28}加载且建立临时表 val j...
阅读(3202) 评论(0)

spark学习笔记总结--算子

Value型Transformation 1、集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD 2、下划线 '_' 代表集合中所有值 3、map、filter为Transformation算子 4、parallelize(1 to 10,6),位产生1到10的集合,且分六个区 5、toDebugString查看一下RDD依赖关系 6、cache()加...
阅读(993) 评论(0)

DataFrame和SparkSql取值误区

1、DataFrame不是以对象存在的。 2、DataFrame查出来的数据放回的是一个数组。 3、DataFrame只有遇见Action的算子才能执行 package DataFrame import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** *...
阅读(1967) 评论(0)

DataFrame和SparkSql使用区别

加载数据 [root@hadoop14 resources]# cat datajson.txt {"name":"Michael"} {"name":"Andy", "age":30} {"name":"Justin", "age":19} scala> val jsondf=sqlContext.read.json("hdfs://hadoop14:9000/yuhui/json...
阅读(626) 评论(0)
21条 共2页1 2 下一页 尾页
    个人简介
    个人资料
    • 访问:360708次
    • 积分:6499
    • 等级:
    • 排名:第3931名
    • 原创:283篇
    • 转载:23篇
    • 译文:24篇
    • 评论:76条
    博客专栏
    【友情推荐】章鱼大数据