大数据学习记录
记录大数据工具原理与应用的学习过程
茵茵的聪聪
这个作者很懒,什么都没留下…
展开
-
Spark2.X学习(1) - 结构化API概述(DataFrame与DataSet)
Spark2.X学习(1) - 结构化API概述(DataFrame与DataSet)本系列笔记主要参考《Spark权威指南2.X》,主要学习在Spark2.X中的DataFrame和DataSet等结构化API。一些Spark的基础知识,可以参考之前我断断续续的学习笔记:《Spark快速大数据分析》- Spark应用运行原理文章目录Spark2.X学习(1) - 结构化API概述(DataFrame与DataSet)1. 结构化API简介1.1 DataSet与DataFrame1.2 行、列、模式原创 2020-12-26 18:25:14 · 516 阅读 · 1 评论 -
Spark入门程序WordCount实现(Java)
文章目录1. 环境与数据准备1.1 运行环境1.2 数据准备2. 代码实现2.1 maven工程创建2.2 代码逻辑2.3 编译、打包、运行Reference为了快速入门java与Spark工程的构建与开发,本次使用java实现Spark经典程序WordCount,过程记录如下,如有错误,请指正。1. 环境与数据准备1.1 运行环境Hadoop:2.7.7Spark:2.4.7java:1.8.0_211Maven:3.6.31.2 数据准备使用如下命令启动Hadoo原创 2020-11-29 12:56:13 · 2511 阅读 · 0 评论 -
《Hive用户指南》- Hive性能调优
文章目录1. 数据模型相关1.1 Partition 分区表1.2 Bucket 桶表2. 场景优化2.1 全排序2.2 笛卡尔积2.3 EXISTS/IN子查询2.4 Multi-group by3. 配置相关4. 数据倾斜问题4.1 空值导致的数据倾斜4.2 不同数据类型关联导致的数据倾斜4.3 大表关联导致的数据倾斜ReferenceHive针对的应用场景是OLAP,通常对大数据集进行查询...原创 2020-04-11 13:13:18 · 331 阅读 · 0 评论 -
《Hive用户指南》- Hive的连接join与排序
《Hive用户指南》- Hive的连接join与排序文章目录《Hive用户指南》- Hive的连接join与排序1. 连接1.1 left semi join1.2 mapjoin2. 排序2.1 Order By2.2 Sort By 和 Distribute By2.3 Cluster ByReference在之前的笔记中,介绍了Hive的基本架构,以及常见的SQL操作如何转化为MapR...原创 2020-04-09 20:44:27 · 324 阅读 · 0 评论 -
《Hive用户指南》-HiveSQL转化为MapReduce任务
文章目录1. hive.fetch.task.conversion参数2. 转化为MR任务的SQL2.1 JOIN2.2 GROUP BY2.3 DISTINCTReferenceHive是Facebook实现的一个开源的数据仓库工具——Hive基于Hadoop实现,底层数据存放在HDFS中,计算(查询)使用MapReduce任务实现将结构化的数据文件映射为数据库表,并提供HQL查询功能,...原创 2020-04-08 15:03:52 · 1688 阅读 · 0 评论 -
《Spark快速大数据分析》- Spark应用运行原理
文章目录1. Spark的主从结构1.1 驱动器程序Driver1.2 执行器程序Executor2. 集群管理器概念区分3. 运行流程小结Reference本文是在阅读《Spark快速大数据分析》后,根据里面提到的知识点,对Spark的运行原理进行总结概括。说明:这本书使用的spark版本是1.2,目前最新版本已经是3.0,所以可能笔记中有些内容在新版中已经不再适用。1. Spark的主从...原创 2020-04-02 10:22:18 · 299 阅读 · 0 评论 -
《Spark快速大数据分析》- 根据简单例子理解RDD
本文是在阅读《Spark快速大数据分析》后,根据里面提到的知识点,对Spark的运行原理进行总结概括。说明:这本书使用的spark版本是1.2,目前最新版本已经是3.0,所以可能笔记中有些内容在新版中已经不再适用。1. RDD简介RDD,弹性分布式数据集(Resiliennt Distributed Datasets),是Spark中最重要的核心概念,是Spark应用中存储数据的数据结构。...原创 2020-04-01 11:53:15 · 2606 阅读 · 0 评论 -
Spark实战—— (2.1) HBase表格结构、物理存储结构与系统架构
文章目录1. HBase简介1.1 HBase是什么?1.2 列式存储与行式存储2. HBase表格结构3. HBase物理存储结构4. HBase系统架构4.1 重要文件4.2 架构4.3 Region定位Reference1. HBase简介1.1 HBase是什么?HBase,即Hadoop DataBase,是Hadoop的一个子项目,是一个高可靠性、高性能、面向列、可伸缩的分布式存...原创 2019-05-30 20:05:57 · 703 阅读 · 0 评论 -
Spark实战—— (1) zookeeper简介与环境搭建
文章目录1. Zookeeper是做什么的?1.1 简介1.2 应用场景2. 核心:Paxos算法3. Zookeeper分布式集群搭建3.1 环境3.2 安装3.3 配置3.4 启动集群4. 集群简单使用Reference1. Zookeeper是做什么的?1.1 简介Zookeeper是Hadoop项目中的一个子项目,是一个分布式应用程序协调服务,是Google的Chubby的一个开源实...原创 2019-05-28 11:35:35 · 729 阅读 · 0 评论 -
Spark学习—— (6) 键值对RDD编程(基于Python)
键值对RDD是许多操作所需要的常见数据类型,也叫做pair RDD通常我们会从一个RDD提取某些信息作为新的RDD的键,构成一个键值对RDD。pair RDD也是RDD,所以上一篇笔记中介绍的RDD操作对pair RDD同样适用。本文介绍针对键值对RDD的常用操作及实例。文章目录1. pair RDD的创建2. pair RDD的Transformation操作2.1 单个pair RDD2...原创 2019-05-07 22:54:10 · 398 阅读 · 0 评论 -
Spark学习—— (5) RDD基础编程(基于Python)
RDD是Spark中最基本的数据抽象。虽然Spark2.x中建议使用效率更高的DataSet代替RDD,但还是有必要学习一下RDD的相关知识。本文第一部分简单介绍RDD的一些基本概念,第二部分则介绍RDD的常用操作并给出例子。另外,本文介绍的操作不涉及到键值对RDD的操作,然而键值对RDD是许多操作所需要的常见数据类型,这部分内容会在下一篇笔记中补充。文章目录1. RDD简介1.1 RDD是...原创 2019-05-07 09:52:13 · 828 阅读 · 0 评论 -
Spark学习—— (4+) SparkContext与SparkSession
SparkContext与SparkSession1. SparkContext1.1 是什么?如上图,SparkContext是Spark中Driver程序的一部分,向资源管理器cluster manager(可以是mesos、yarn、standalone)申请spark应用所需的资源executor,资源管理器在各个worker上分配一定的executor。当我们编写pyspark...原创 2019-08-09 15:59:28 · 8950 阅读 · 0 评论 -
Spark学习—— (4) 基本使用(Python)
Spark支持Java、Python、Scala、R语法,可以通过spark-shell(Scala)或pyspark(Python)进行交互式的操作,也可以用spark-submit提交用Java、Python、Scala编写的应用。为了学习Spark的使用,本文不涉及原理,仅仅介绍Spark中Python的基本使用,为之后学习Spark的使用打下基础。本文使用部分全部来自官方参考文档Qui...原创 2019-04-26 09:35:58 · 1225 阅读 · 0 评论 -
Spark学习—— (3) 运行模式Local,Standalone,YARN
Spark有多种运行模式,包括——local模式,本地运行Standalone模式,使用Spark原生的资源调度器YARN模式(生产模式中常用),使用Hadoop的YARN作为资源调度器Mesos模式,使用Mesos作为资源调度器本文主要介绍前面三种最常用的运行模式,其中每种模式又可细分为两种模式。在搭建好集群的基础上,使用各个模式分别运行,描述其运行过程。关于集群搭建,可以参考上...原创 2019-04-22 14:53:17 · 2177 阅读 · 0 评论 -
Spark学习—— (2) 从零开始搭建Spark(StandAlone与YARN模式)与Hadoop集群
记录自己使用VMware搭建Spark集群的过程,使用三台虚拟机。若只需要Hadoop集群,则将5和7跳过即可;若只需要Spark Standalone模式的集群,则将6和7跳过即可。文章目录1. 环境2. 第一台虚拟机2.1 虚拟机创建2.2 Hadoop安装2.3 Spark安装3. 虚拟机复制3.1 修改用户名/组(看黑体)3.2 克隆虚拟机3.3 修改主机名称4. 配置ssh免密登陆...原创 2019-04-21 14:44:51 · 756 阅读 · 0 评论 -
Spark启动失败:slave节点无法连接到master
1. 问题描述启动spark时报错,使用start_all.sh或在slave节点上start_slave.sh都报相同的错。报错信息如下:19/04/20 04:35:49 INFO Utils: Successfully started service 'sparkWorker' on port 45265.19/04/20 04:35:49 INFO Worker: Starti...原创 2019-04-20 20:10:41 · 4902 阅读 · 1 评论 -
Spark学习—— (1+)补充Spark各个组件的简单介绍
之前的笔记中Spark学习—— (1) 原理介绍,对Spark的基本原理进行介绍,对于各个组件简单带过了,这里稍微补充一下。1. Spark的各个组件Spark的各个组件如下,在图中自底向上可分为三个部分:资源管理器、SparkCore、上层工具。cluster manager,资源管理器,使得Spark可以在集群上灵活地获取资源,可伸缩地进行高效计算Spark支持在各种资源管理器上...原创 2019-09-18 09:59:52 · 316 阅读 · 0 评论 -
Spark学习—— (1) 原理介绍
本文分为三个部分:第一部分介绍Spark的概念,通过与Hadoop的对比,使得对Spark的定位有一个较清晰的理解。第二部分通过介绍基本术语,了解Spark基本、简略的运行流程,对Spark的运行流程有一个初步概念。第三部分以Standalone运行模式为例,稍微深入地介绍了Spark应用的运行流程,使得对Spark的运行流程的整个框架有一定理解。目前正在入门Spark,本文基本为学习网上...原创 2019-04-15 16:46:24 · 529 阅读 · 0 评论 -
Hadoop学习——(5) MapReduce实现PageRank
文章目录1. PageRank原理1.1 简单例子1.2 终止点与陷阱2. MapReduce实现2.1 数据准备2.2 Map阶段2.3 Reduce阶段2.4 main函数2.5 运行结果Reference1. PageRank原理PageRank是一种计算网页重要程度的算法,算法根据网页之间的链接,为每个网页计算一个PageRank值,值越大表明网页越重要,在搜索结果中排在更前面的位置。...原创 2019-04-09 09:15:21 · 2436 阅读 · 2 评论 -
Hadoop学习——(4) 开发环境与WordCount
本文分为两部分——第一部分介绍Hadoop开发的预备工作,即开发环境的准备;第二部分以wordcount程序为例,编写第一个MapReduce程序,包括程序的运行、源码解析、Combiner自定义,加深对MapReduce运行过程的理解。文章目录1.预备工作1.1 安装eclipse1.2 安装hadoop-eclipse-plugin插件2. WordCount程序2.1 数据准备2.2 ...原创 2019-04-03 17:41:15 · 477 阅读 · 0 评论 -
Hadoop学习——(3) 基本使用
文章目录1. HDFS基本使用1.1 HDFS的存储目录1.2 HDFS基本命令1.3 读取、写入文件Reference1. HDFS基本使用1.1 HDFS的存储目录HDFS的文件存放在三类节点中,分别为NameNode、DataNode、Secondary NmaeNode,在hdfs-site.xml中配置的目录分别为/data/hadoop/hdfs/下的nn、dn、snn。查看n...原创 2019-04-02 14:34:02 · 529 阅读 · 0 评论 -
Hadoop学习——(2) 安装过程记录(Ubuntu上的伪分布模式)
Hadoop学习——(2) 安装过程记录(伪分布模式)Hadoop有三种操作模式,分别为单机模式,伪分布模式和全分布模式。本文简单介绍和区分三种操作模式,并参考网上的文章,记录自己搭建伪分布模式集群的过程。最后使用hadoop提供的example程序尝试运行。文章目录Hadoop学习——(2) 安装过程记录(伪分布模式)1. Hadoop的三种模式2. JDK安装3. 安装hadoop4....原创 2019-03-31 16:36:32 · 398 阅读 · 0 评论 -
Hadoop学习——(1) 基础知识
Hadoop学习——(1) 基础知识本文结构如下——第一部分,主要从整体上对Hadoop进行简单的介绍,使得对”Hadoop是什么“这个问题在脑海中有大致的答案;第二到第四部分,分别介绍Hadoop的存储模块HDFS、计算模块MapReduce、调度模块YARN,使得对Hadoop有更好的理解;第五部分,介绍Hadoop的生态圈中的若干产品,使得对Hadoop的现实应用有一定理解。文章目...原创 2019-03-30 23:47:29 · 1386 阅读 · 0 评论