【大数据】SparkSQL

一 前言 1.hive 把sql转化为mapreduce 缺点:底层是mapreduce,效率不高,后来做了改进,可以跑在tez,spark,mapreduce上面 2.shark hive跑在spark上面 shark缺点:hive hql解析,逻辑执行计划生成依赖于hive的,仅仅把物理执行从...

2019-02-19 00:02:52

阅读数 26

评论数 0

【尚学堂】Spark笔记(实时增删)

spark比mapreduce快100倍,即使降级到硬盘,也要快10倍。 因为spark有高级DAG执行引擎,它支持循环数据流和基于内存的计算。 它会把有向无环图进行切割。 提供了超过80个算子操作,常用的也就20多个。 它可以访问各种各样的数据源,比如hdfs,hbase等等。 什么是spark...

2019-02-18 23:30:38

阅读数 68

评论数 0

【大数据】Spark DAG

一 什么是DAG DAG(Directed Acyclic Graph)有向无环图。 二 sparkDAG spark中rdd经过若干次transform操作,由于transform操作是lazy的,因此,当rdd进行action操作时,rdd间的转换关系也会被提交上去,得到rdd内部的依赖关系,...

2019-02-14 14:19:58

阅读数 55

评论数 0

Hive优化

一 fetch task 开启fetch task如果没有函数和排序就不会触发mapreduce 把hive.fetch.task.conversion设置成more 二 本地模式 大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是...

2019-02-12 17:31:00

阅读数 28

评论数 0

【大数据】hadoop之HDFS(可删除)

hadoop的功能和优势 1.开源 2.分布式存储 3.分布式计算 核心 hdfs 分布式文件系统 mapreduce 并行处理框架 可以PB级数据处理。 优势 1.高扩展 2.低成本 3.成熟的生态圈 hadoop生态系统和版本 比如hive ,降低hadoop门槛。 ...

2019-02-04 10:02:26

阅读数 25

评论数 0

【大数据】Storm

课程目标: hbase存储模式 hbase数据表解析 hbase存储设计 hbase数据存取解析 一存储模式 行式存储和列式存储 以行位单位,底层每一行存储在一起。 以列为单位,第一列存储完之后存第二列。 行式存储: 行式存储维护大量索引,随机读效率高。最大的特点对事务支持好。 列式存储将每一列数...

2019-01-28 23:11:22

阅读数 39

评论数 0

【大数据】Spark数据读取与保存

一 动机 有时候我们数据量可能大到无法存放在一台机器中。Spark支持多种数据源 文件格式与文件系统 比如HDFS和NFS等。可以访问文本文件,JSON,序列化文件,以及protocol buffer。 Spark SQL中结构化的数据源 数据库与键值存储 比如HBASE,JDBC以及Elasti...

2019-01-13 21:16:35

阅读数 42

评论数 0

【大数据】Spark数据分区

一 前言 Spark可以通过控制RDD分区方式来减少通讯开销。所有键值对RDD都可以进行分区,Spark可以确保同一组的键出现在同一个节点上。 自定义分区

2019-01-13 20:58:58

阅读数 82

评论数 0

【大数据】Spark键值对操作

一 pairRDD 键值对RDD又叫做pairRDD,通常用来进行聚合运算 二 创建pairRDD

2019-01-13 19:53:20

阅读数 40

评论数 0

【大数据】Spark RDD基础

RT 1.由多台机器paration组成 2.计算每一个split 3.由上一个RDD来的,内存到内存。状态没有了,从新计算,计算找上一个RDD,而不是从新读HDFS,如果上个RDD不在了,找上上个RDD,如果都不在了就从新来读。 4.RDD元素是键值对,可以传一个parationer来重新分区。...

2019-01-03 00:04:48

阅读数 35

评论数 0

【大数据】MapReduce

一、什么是mapreduce 分布式计算框架,更适合做离线计算,它是移动计算,而不是移动数据的,是处理超大数据,而不是小数据 mapreduce 离线计算 storm 流式计算 实时 spark 内存计算 快速得到结果 二、mapreduce的四个阶段...

2018-12-22 23:35:43

阅读数 24

评论数 0

【大数据】Spark基础

一 什么是spark spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。 二 spark的特点 ...

2018-12-18 18:28:58

阅读数 37

评论数 0

【大数据】MapReduce

一、创建三台虚拟机 这里我们创建三台虚拟机,然后给它们设置固定IP,设置固定ip可以看下面的博客,记得要关闭防火墙 设置固定ip 192.168.146.131 192.168.146.132 192.168.146.133 二、安装JDK以及环境变量 1.下载jdk 2.配置...

2018-12-10 22:31:01

阅读数 28

评论数 0

【大数据】HDFS

一、什么是HDFS HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。 HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的...

2018-11-06 00:19:17

阅读数 99

评论数 0

【大数据】什么是hadoop

一、hadoop简介 Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 二、hadoop架构设计 ⑴hadoopcommon hadoop基础设施模块 ⑵hdfs 分布式文件系统 ...

2018-11-04 23:05:15

阅读数 69

评论数 0

superset - Creating your first dashboard

这篇教程目标人群是想利用superset创建图表或者仪表盘的人群.我们将向你展示如何将superset连接到数据库并配置数据库表用来分析.你还将研究你所抽取出来的数据,并把它添加到一个可视化的仪表盘中,因而你可以有一个端对端的用户体验. 1.连接一个新的数据库 我们假设有一个你可以连接到的数据...

2018-08-03 15:02:34

阅读数 128

评论数 0

hadoop基本概念

一、什么是hadoop hadoop是一种能够对大量数据进行处理的软件框架。hadoop的核心是: ⑴hdfs                       分布式文件系统 ⑵mapreduce           实现在很多机器上分布式并行运算 ⑶yarn                 ...

2017-08-06 15:31:03

阅读数 117

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭