王佩的CSDN博客

大数据开发、机器学习、深度学习、神经网络、推荐系统、自然语言处理、图数据库...

Spark Streaming空DStream判断

在Spark Streaming中对空DStream的判断,最终都是对空RDD的判断。一般有三种方法:计数(RDD.count),分区(RDD.partitions.length),计数+分区(RDD.isEmpty)。 RDD.count 适用于所有类型的DStream,但由于是Action算子...

2019-05-14 08:07:44

阅读数 8

评论数 0

Spark Streaming状态操作: updateStateByKey、mapWithState、基于window的状态操作

在Spark Streaming中,DStream的转换分为有状态和无状态两种。无状态的操作,即当前批次的处理不依赖于先前批次的数据,如map()、flatMap()、filter()、reduceByKey()、groupByKey()等等;而有状态的操作,即当前批次的处理需要依赖先前批次的数据...

2019-05-14 06:59:09

阅读数 11

评论数 0

Spark Streaming读取Kafka数据的两种方式

Kafka在0.8和0.10之间引入了一种新的消费者API,因此,Spark Streaming与Kafka集成,有两种包可以选择: spark-streaming-kafka-0-8与spark-streaming-kafka-0-10。在使用时应注意以下几点: spark-streamin...

2019-04-20 16:49:40

阅读数 30

评论数 0

Spark Streaming保证Exactly-Once语义

在流计算引擎如Apache Storm、Apache Kafka(Kafka Streams)、Apache Spark(Spark Streaming、Spark Structured Streaming)、Apache Flink中,经常提到Exactly-Once语义,那Exactly-On...

2019-04-13 09:03:01

阅读数 60

评论数 0

Spark Streaming中的batchDuration​、windowDuration、slideDuration

Spark Streaming是一种面向微批(micro-batch)处理的流计算引擎。将来自Kafka/Flume/MQ等的数据, Duration含义 batchDuration: 批次时间。多久一个批次。 windowDuration: 窗口时间。要统计多长时间内的数据。必须是batchD...

2019-04-06 23:43:56

阅读数 25

评论数 0

Spark 推测执行

Spark 推测执行是一种优化技术。 在Spark中,可以通过推测执行,即Speculative Execution,来识别并在其他节点的Executor上重启某些运行缓慢的Task,并行处理同样的数据,谁先完成就用谁的结果,并将另一个未完成的Task Kill掉,从而加快Task处理速度。适用于...

2019-03-31 13:04:37

阅读数 44

评论数 0

Spark RDD、DataFrame、Dataset 比较以及相互转换

Spark 支持三种API:RDD、DataFrame 和 Dataset。 这里,总结这三种API的差异以及相互之间的转换。 RDD、DataFrame、Dataset比较   RDD DataFrame Dataset Spark 1.x ✅(从0.6.0开始...

2019-03-23 01:07:34

阅读数 50

评论数 0

Impala中使用Hive UDF

在Impala中,可以使用两种UDF: 基于Java的UDF:即用Java编写的Hive UDF。 基于C++的UDF: 用C++编写的UDF。 这里总结在Impala中使用Hive UDF。 Hive 1.2中没有md5函数,Impala中默认也没有类似函数,则可通过自定义UDF来实...

2019-03-16 22:56:25

阅读数 75

评论数 0

Impala中的Invalidate Metadata和Refresh

Impala中有两种同步元数据的方式:INVALIDATE METADATA和REFRESH。 使用Impala执行的DDL操作,不需要使用任何INVALIDATE METADATA / REFRESH命令。CatalogServer会将这种DDL元数据变化通过StateStore增量同步到集群中...

2019-03-15 08:57:40

阅读数 57

评论数 0

Impala Shell常用命令行选项与常用命令

常用命令行选项 -h或–help 显示帮助信息。 [root@node2 ~]# impala-shell -h -i或–impalad 连接到指定的impalad节点。 [root@node2 ~]# impala-shell -i node3 -q或–query 指定要执行的Sql语句。 ...

2019-03-15 07:32:51

阅读数 54

评论数 0

Apollo配置中心多环境HA简单部署

背景 随着项目的功能越来越复杂,各种各样的配置也越来越多,渐渐的开始面临以下问题: 各种配置到处都是,没有集中管理。 配置的存放方式也多种多样,如程序内部hard code、配置文件中、数据库中等等。 同一种配置,各处不统一。 配置修改后不能实时生效。 配置的修改没有完善的审核...

2019-03-03 01:20:00

阅读数 85

评论数 0

Apache Ranger基于Apache Atlas标签的策略

Ranger-Atlas集成将Atlas的数据分类(Tag)与Ranger中的安全策略相结合,可以实现基于分类的、跨组件的权限控制,而无需在每个组件中创建单独的服务和策略。 Ranger配置Tagsync 配置Ranger Tagsync从Atlas中同步Tag。可通过Ambari WebUI=&...

2019-03-01 07:56:05

阅读数 123

评论数 0

Apache Ranger对Hive数据脱敏-行过滤Row Filter、列屏蔽Column Masking

概述 Apache Ranger对Hive数据支持两种脱敏方式:行过滤Row Filter、列屏蔽Column Masking。它可对Select结果进行行列级别数据脱敏,从而达到对用户屏蔽敏感信息的目的。 注意:该功能只适用于HiveServer2使用场景(如Beeline/JDBC/Hue等途...

2019-02-26 07:20:54

阅读数 149

评论数 0

Apache Ranger对HDFS、HBase、Hive、Yarn授权

概述与安装 1. 简介 Apache Ranger是集中式的权限管理框架,可以对HDFS、HBase、Hive、Yarn等组件提供细粒度的权限访问控制,并且提供WebUI和RestAPI方便进行操作。 2. 功能 A、集中认证(Authentication)、授权(Authorization)、审...

2019-02-24 22:12:55

阅读数 140

评论数 0

Apache Atlas类型系统与Rest API

概述 类型系统Type System是Atlas最核心的组件之一,用户可以通过类型系统对数据资产进行分类、定义,然后用Ingest/Export组件添加元数据或输出元数据变化。对外,其他系统可以通过REST API或Kafka Message与Atlas进行集成。 这里,总结Atlas 类型系统与...

2019-02-23 14:21:08

阅读数 184

评论数 0

Apache Atlas管理Hive元数据

部署好Atlas服务后,重点是对Atlas的使用,这里对Atlas管理Hive元数据做简单总结。 Hive元数据导入 全量导入 /usr/hdp/2.6.4.0-91/atlas/hook-bin/import-hive.sh 通过WebUI可以搜索到如下Hive数据库: 通过WebUI可以搜...

2019-02-17 20:41:49

阅读数 501

评论数 5

Apache Atlas HA部署

概述 Apache Atlas是开源的元数据治理框架,可以为Hive、HBase、Kafka等提供元数据管理功能,如: 数据分类 查看和更新Lineage 元数据搜索 与Apache Ranger集成控制权限 注意:为便于安装配置,以及后续的管理维护,建议用HDP Ambari等工具来部署At...

2019-02-16 23:16:49

阅读数 189

评论数 0

Spark Streaming Join

多数据源Join思路 多数据源Join大致有以下三种思路: 数据源端Join,如Android/IOS客户端在上报用户行为数据时就获取并带上用户基础信息。 计算引擎上Join,如用Spark Streaming、Flink做Join。 结果端Join,如用HBase/ES做Join,J...

2018-11-10 07:26:07

阅读数 646

评论数 0

在 Spark DataFrame 中使用Time Window

从Spark 2.0.0开始,Spark Sql包内置和Spark Streaming类似的Time Window,方便我们通过时间来理解数据。 Spark Sql包中的Window API Tumbling Window window(timeColumn: Column, windowDura...

2018-11-08 08:37:46

阅读数 469

评论数 0

Spark SQL 与 Spark DataFrame 自定义UDF、UDAF

UDF、UDAF、UDTF UDF:用户自定义函数(User Defined Function)。一行输入一行输出。 UDAF: 用户自定义聚合函数(User Defined Aggregate Function)。多行输入一行输出。 UDTF: 用户自定义表函数(User Defined Ta...

2018-11-08 07:15:50

阅读数 377

评论数 0

提示
确定要删除当前文章?
取消 删除