Apache Spark Dataframe Join语法教程

始终考虑将RDD转换为Dataframe数据帧,执行请求的操作并保存结果......这是节省时间最多的方法。那么让我们深入研究Dataframe数据帧测试 数据workers: 1,Jerry,man,USA 2,Cathy,female,GBR 3,Teresa,fe...

2019-04-24 10:34:42

阅读数 33

评论数 0

Flink部署-standalone模式

安装环境信息 flink-1.6.2-bin-hadoop27-scala_2.11.tgz hadoop-2.7.5 java 1.8 zookeeper 3.4.6 os:centos 6.4 1、下载 直接去flink的社区下载就可以了。http://flink.apache.org/d...

2019-04-16 14:18:57

阅读数 55

评论数 0

hive 的 left semi join 讲解

LEFT SEMI JOIN (左半连接)是 IN/EXISTS 子查询的一种更高效的实现。 Hive 当前没有实现 IN/EXISTS 子查询,所以可以用LEFT SEMI JOIN 重写你的子查询语句。 示例 可以改写为 特点 1、left semi join 的限制是,...

2019-04-12 14:39:36

阅读数 42

评论数 0

hive四种存储格式介绍与分析比较

一、四种存储格式介绍 1、TestFile TextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。 2、RCFile Record Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进...

2019-04-08 09:48:41

阅读数 44

评论数 0

Hive 的collect_set使用详解

有这么一需求,在hive中求出一个数据表中在某天内首次登陆的人;可以借助collect_set来处理sql: select count(a.id) from (select id,collect_set(time) as t from t_action_login where time&...

2019-04-01 09:25:06

阅读数 59

评论数 0

第57课:SparkSQL案例实战学习笔记

第57课:SparkSQL案例实战学习笔记 本期内容: 1.SparkSQL基础案例实战 2.SparkSQL商业类型的案例 进入Spark官网的sql-programming-guide: http://spark.apache.org/docs/latest/sql-programming...

2019-03-20 17:34:47

阅读数 48

评论数 0

hive 查找函数并查看函数使用方法

1.查看month相关的函数 show functions like '*month*' 输出如下: 2.查看add_months函数的用法 desc function add_months; 3. 查看 add_months 函数的详细说明并举例 desc function exte...

2019-03-19 15:50:55

阅读数 45

评论数 0

hive常用函数之条件判断函数IF,COALESCE,CASE

1.If函数:if和case差不多,都是处理单个列的查询结果 语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull) 返回值: T 说明:当条件testCondition为TRUE时,返回valueTrue;否则返回val...

2019-03-19 15:50:13

阅读数 54

评论数 0

Scala多行字符串

在Scala中可以用"""的方式创建多行字符串,eg. object StringTest { def main(args: Array[String]): Unit = { val s1 ="""This is ...

2019-03-19 10:11:14

阅读数 28

评论数 0

Spark之本地模式与集群模式

Spark之本地模式与集群模式 1.spark-shell的本地模式和集群模式 1.1 local本地模式 直接启动spark-shell命令窗口 脚本启动后,会生成一个SparkContext的上下文对象sc。并且启动的是本地模式(local)。如图: 1.1.1 加载本地数据 sc...

2019-03-16 16:57:22

阅读数 49

评论数 0

csv、parquet、orc读写性能和方式

索引: 1.背景 2.存储方式 3.存储效率 4.读写方式 5.结论 6.其他格式 背景 最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结...

2019-03-16 08:51:00

阅读数 27

评论数 0

Spark SQL, DataFrames and Datasets Guide

Overview Spark SQL is a Spark module for structured data processing. Unlike the basic Spark RDD API, the interfaces provided by Spark SQL provide Sp...

2019-03-15 19:19:04

阅读数 179

评论数 0

Spark 2.4 正式发布,重要功能详细介绍

美国时间 2018年11月08日 正式发布了。一如既往,为了继续实现Spark更快,更轻松,更智能的目标,Spark 2.4带来了许多新功能,如下: 添加一种支持屏障模式(barrier mode)的调度器,以便与基于MPI的程序更好地集成,例如, 分布式深度学习框架; 引入了许多内置的高阶函数...

2019-03-15 18:30:09

阅读数 53

评论数 0

Parquet列式存储格式

Apache Parquet是Hadoop生态系统中的列式存储格式,面向分析型业务,与数据处理框架、数据模型、编程语言无关。 ● 优势 降低存储空间:按列存,能够更好地压缩数据,因为一列的数据一般都是同质的(homogenous) 提高IO效率:扫描(遍历/scan)的时候,可以只读其中部分列....

2019-03-14 21:05:20

阅读数 39

评论数 0

csv、parquet、orc读写性能和方式

背景 最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想要寻找一个...

2019-03-14 20:55:26

阅读数 63

评论数 0

读写parquet格式文件的几种方式

摘要 本文将介绍常用parquet文件读写的几种方式 1.用spark的hadoopFile api读取hive中的parquet格式文件 2.用sparkSql读写hive中的parquet格式 3.用新旧MapReduce读写parquet格式文件 读parquet文件 首先创建hi...

2019-03-14 20:40:52

阅读数 183

评论数 0

Hive数据导入导出的几种方式

一,Hive数据导入的几种方式 首先列出讲述下面几种导入方式的数据和hive表。 Hive表: 创建testA: CREATE TABLE testA ( id INT, name string, area string ) PARTITIONED BY (create_time ...

2019-03-13 16:53:25

阅读数 29

评论数 0

spark RDD算子(九)之基本的Action操作 first, take, collect, count, countByValue, reduce, aggregate, fold,top

first 返回第一个元素 scala scala> val rdd = sc.parallelize(List(1,2,3,3)) scala> rdd.first() res1: Int = 1 java JavaRDD&...

2019-03-13 16:31:10

阅读数 16

评论数 0

命令修改副本数:hadoop fs -setrep

1、hadoop fs -setrep setrep Usage: hadoop fs -setrep [-R] [-w] <numReplicas> <path> Changes the replicat...

2019-03-13 15:53:44

阅读数 67

评论数 0

Hive 修改表字段

使用CAST函数将STRING转为BIGINT: SELECT CAST('00321' AS BIGINT) FROM table; As aBIGINTit will show on the screen and in delimited text files as321. 参考:Hive...

2019-03-13 12:08:17

阅读数 28

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭