北京小辉的博客

学习是一种享受,也是一种痛苦,更是一种回忆!!!

排序:
默认
按更新时间
按访问量

spark自定义分区

目录一、需求二、代码展示三、数据展示四、结果展示五、三种分区方式介绍       1、默认分区方式(实际上是HashPartitioner)       2、HashPartitioner分区       3、RangePartitioner分区——————————————————————————...

2017-09-19 09:46:03

阅读数:759

评论数:3

Spark算子分类及功能描述

目录:一、简介二、Value型Transformation算子三、Key-Value型Transformation算子四、Actions算子————————————————————————————————————————–一、简介spark算子大致上可分三大类算子:        1、Value...

2017-05-22 13:38:31

阅读数:482

评论数:0

SparkStreaming在启动执行步鄹和DStream的理解

目录:SparkStreaming启动执行步鄹:DStream和Rdd的理解Linux中发送数据SparkStreaming代码如下结果展示:————————————————————————————————————————–SparkStreaming启动执行步鄹:1、加载SparkConf和St...

2017-04-13 13:58:31

阅读数:1690

评论数:1

Spark的有向无环图DAG(代码及图解)

目录:1、有向无环图2、代码结构3、代码学习步鄹及方法4、重点代码讲解5、代码展现6、运行结果1、有向无环图在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,...

2017-01-03 18:21:54

阅读数:7415

评论数:0

[编程语言]SparkTask未序列化(Task not serializable)问题分析

问题描述及原因分析       在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相应的配置进行变换等。为了解决上...

2016-11-16 16:27:06

阅读数:572

评论数:0

Spark:本地连接集群运行Saprk程序

本地连接集群运行Saprk程序两种方式目录1)通过Maven(简单一些,建议用这种)2)下载Saprk环境1)通过Maven 备注:java是1.8版本,scala是2.11.6版本 maven中加入的依赖如下: <dependency> <groupId&...

2016-10-31 09:12:39

阅读数:1371

评论数:0

Spark的一些问题

yarn资源申请不足,导致任务持续等待2016-09-20 16:49:25,657 [WARN ] 70 org.apache.spark.scheduler.cluster.YarnScheduler - Initial job has not accepted any resources;...

2016-09-20 17:24:05

阅读数:582

评论数:2

Spark优化及总结

转自:http://blog.csdn.net/ljj657137723/article/details/52134962       本篇文章是关于我在学习Spark过程中遇到的一些问题及总结,分为Spark优化、RDD join问题、遇到的问题、总结、参考资料几个部分。 一:Spark优...

2016-08-07 12:40:01

阅读数:1364

评论数:0

DataFrame:通过SparkSql将Json数据转为DataFrame

import java.text.DecimalFormat import com.alibaba.fastjson.JSON import com.donews.data.AppConfig import com.typesafe.config.ConfigFactory import org....

2016-07-20 11:57:27

阅读数:3057

评论数:0

DataFrame:通过SparkSql将scala类转为DataFrame

package com.donews.data.hbaseuser import com.alibaba.fastjson.JSON import com.donews.data.AppConfig import com.typesafe.config.ConfigFactory import...

2016-07-20 11:48:05

阅读数:1878

评论数:0

DataFrame自定义函数

我这里是一个简单的两个数相加,是为了取代sum聚合函数。官网: http://spark.apache.org/docs/latest/sql-programming-guide.html#udf-registration-moved-to-sqlcontextudf-java–scala第一、...

2016-07-14 11:19:16

阅读数:1307

评论数:0

SparkSql中的ISNULL和CASE WHEN方法

元数据 data.json {“name”:”Yuhui”} {“name”:”lihui”, “age”:30} {“name”:”Justin”, “age”:19}people.json {“name”:”Yuhui”,”age”:29} {“name”:”lihui”, “ag...

2016-07-11 10:59:28

阅读数:5846

评论数:0

spark学习笔记总结--算子

Value型Transformation 1、集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD 2、下划线 '_' 代表集合中所有值 3、map、filter为Transformation算子 4、parallelize(1 to 10,6),位产生1到1...

2016-06-16 14:38:57

阅读数:1668

评论数:0

DataFrame和SparkSql取值误区

1、DataFrame不是以对象存在的。 2、DataFrame查出来的数据放回的是一个数组。 3、DataFrame只有遇见Action的算子才能执行 package DataFrame import org.apache.spark.sql.SQLContext import org.a...

2016-06-14 11:22:49

阅读数:3220

评论数:0

DataFrame和SparkSql使用区别

加载数据 [root@hadoop14 resources]# cat datajson.txt {"name":"Michael"} {"name":"Andy", "age":30} {&quo...

2016-06-13 15:44:10

阅读数:945

评论数:0

Dataframe加载数据的4种方法

第一种:加载json数据 原始数据 {"name":"Michael"} {"name":"Andy", "age":30} {"name":"Justin&q...

2016-06-13 14:39:09

阅读数:2060

评论数:0

spark学习笔记总结

Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spar...

2016-06-03 15:06:35

阅读数:1302

评论数:0

spark1.6从hdfs上读取文件运行wordcount

从hdfs上读取文件并运行wordcount [root@hadoop14 app]# hadoop fs -put word.txt /yuhui scala> val file=sc.textFile("hdfs://hadoop14:9000/yuhui/word.t...

2016-06-02 00:00:50

阅读数:907

评论数:0

Spark 1.6.1 单机安装配置

本文将介绍Apache Spark 1.6.1在单机的部署,与在集群中部署的步骤基本一致,只是少了一些master和slave文件的配置。 1、Spark的安装准备 Spark官网的文档 http://spark.apache.org/docs/latest/ 里是这样说的: Spa...

2016-06-01 21:37:14

阅读数:2352

评论数:2

SparkStream文件监控和数据读取

代码 package main.scala import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} import org.slf4j.LoggerFactor...

2016-05-24 12:53:49

阅读数:3655

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭