大数据学习记录_茵茵的聪聪的博客-CSDN博客

大数据学习记录

关注

记录大数据工具原理与应用的学习过程

关注数：文章数：23 文章阅读量：34953 文章收藏量：168

作者: 茵茵的聪聪

这个作者很懒，什么都没留下…

展开

Spark2.X学习(1) - 结构化API概述（DataFrame与DataSet）

Spark2.X学习(1) - 结构化API概述（DataFrame与DataSet）本系列笔记主要参考《Spark权威指南2.X》，主要学习在Spark2.X中的DataFrame和DataSet等结构化API。一些Spark的基础知识，可以参考之前我断断续续的学习笔记：《Spark快速大数据分析》- Spark应用运行原理文章目录Spark2.X学习(1) - 结构化API概述（DataFrame与DataSet）1. 结构化API简介1.1 DataSet与DataFrame1.2 行、列、模式

原创 2020-12-26 18:25:14 · 516 阅读 · 1 评论
Spark入门程序WordCount实现（Java）

文章目录1. 环境与数据准备1.1 运行环境1.2 数据准备2. 代码实现2.1 maven工程创建2.2 代码逻辑2.3 编译、打包、运行Reference为了快速入门java与Spark工程的构建与开发，本次使用java实现Spark经典程序WordCount，过程记录如下，如有错误，请指正。1. 环境与数据准备1.1 运行环境Hadoop：2.7.7Spark：2.4.7java：1.8.0_211Maven：3.6.31.2 数据准备使用如下命令启动Hadoo

原创 2020-11-29 12:56:13 · 2511 阅读 · 0 评论
《Hive用户指南》- Hive性能调优

文章目录1. 数据模型相关1.1 Partition 分区表1.2 Bucket 桶表2. 场景优化2.1 全排序2.2 笛卡尔积2.3 EXISTS/IN子查询2.4 Multi-group by3. 配置相关4. 数据倾斜问题4.1 空值导致的数据倾斜4.2 不同数据类型关联导致的数据倾斜4.3 大表关联导致的数据倾斜ReferenceHive针对的应用场景是OLAP，通常对大数据集进行查询...

原创 2020-04-11 13:13:18 · 331 阅读 · 0 评论
《Hive用户指南》- Hive的连接join与排序

《Hive用户指南》- Hive的连接join与排序文章目录《Hive用户指南》- Hive的连接join与排序1. 连接1.1 left semi join1.2 mapjoin2. 排序2.1 Order By2.2 Sort By 和 Distribute By2.3 Cluster ByReference在之前的笔记中，介绍了Hive的基本架构，以及常见的SQL操作如何转化为MapR...

原创 2020-04-09 20:44:27 · 324 阅读 · 0 评论
《Hive用户指南》-HiveSQL转化为MapReduce任务

文章目录1. hive.fetch.task.conversion参数2. 转化为MR任务的SQL2.1 JOIN2.2 GROUP BY2.3 DISTINCTReferenceHive是Facebook实现的一个开源的数据仓库工具——Hive基于Hadoop实现，底层数据存放在HDFS中，计算（查询）使用MapReduce任务实现将结构化的数据文件映射为数据库表，并提供HQL查询功能，...

原创 2020-04-08 15:03:52 · 1688 阅读 · 0 评论
《Spark快速大数据分析》- Spark应用运行原理

文章目录1. Spark的主从结构1.1 驱动器程序Driver1.2 执行器程序Executor2. 集群管理器概念区分3. 运行流程小结Reference本文是在阅读《Spark快速大数据分析》后，根据里面提到的知识点，对Spark的运行原理进行总结概括。说明：这本书使用的spark版本是1.2，目前最新版本已经是3.0，所以可能笔记中有些内容在新版中已经不再适用。1. Spark的主从...

原创 2020-04-02 10:22:18 · 299 阅读 · 0 评论
《Spark快速大数据分析》- 根据简单例子理解RDD

本文是在阅读《Spark快速大数据分析》后，根据里面提到的知识点，对Spark的运行原理进行总结概括。说明：这本书使用的spark版本是1.2，目前最新版本已经是3.0，所以可能笔记中有些内容在新版中已经不再适用。1. RDD简介RDD，弹性分布式数据集（Resiliennt Distributed Datasets），是Spark中最重要的核心概念，是Spark应用中存储数据的数据结构。...

原创 2020-04-01 11:53:15 · 2606 阅读 · 0 评论
Spark实战—— (2.1) HBase表格结构、物理存储结构与系统架构

文章目录1. HBase简介1.1 HBase是什么？1.2 列式存储与行式存储2. HBase表格结构3. HBase物理存储结构4. HBase系统架构4.1 重要文件4.2 架构4.3 Region定位Reference1. HBase简介1.1 HBase是什么？HBase，即Hadoop DataBase，是Hadoop的一个子项目，是一个高可靠性、高性能、面向列、可伸缩的分布式存...

原创 2019-05-30 20:05:57 · 703 阅读 · 0 评论
Spark实战—— (1) zookeeper简介与环境搭建

文章目录1. Zookeeper是做什么的？1.1 简介1.2 应用场景2. 核心：Paxos算法3. Zookeeper分布式集群搭建3.1 环境3.2 安装3.3 配置3.4 启动集群4. 集群简单使用Reference1. Zookeeper是做什么的？1.1 简介Zookeeper是Hadoop项目中的一个子项目，是一个分布式应用程序协调服务，是Google的Chubby的一个开源实...

原创 2019-05-28 11:35:35 · 729 阅读 · 0 评论
Spark学习—— (6) 键值对RDD编程（基于Python）

键值对RDD是许多操作所需要的常见数据类型，也叫做pair RDD通常我们会从一个RDD提取某些信息作为新的RDD的键，构成一个键值对RDD。pair RDD也是RDD，所以上一篇笔记中介绍的RDD操作对pair RDD同样适用。本文介绍针对键值对RDD的常用操作及实例。文章目录1. pair RDD的创建2. pair RDD的Transformation操作2.1 单个pair RDD2...

原创 2019-05-07 22:54:10 · 398 阅读 · 0 评论
Spark学习—— (5) RDD基础编程（基于Python）

RDD是Spark中最基本的数据抽象。虽然Spark2.x中建议使用效率更高的DataSet代替RDD，但还是有必要学习一下RDD的相关知识。本文第一部分简单介绍RDD的一些基本概念，第二部分则介绍RDD的常用操作并给出例子。另外，本文介绍的操作不涉及到键值对RDD的操作，然而键值对RDD是许多操作所需要的常见数据类型，这部分内容会在下一篇笔记中补充。文章目录1. RDD简介1.1 RDD是...

原创 2019-05-07 09:52:13 · 828 阅读 · 0 评论
Spark学习—— (4+) SparkContext与SparkSession

SparkContext与SparkSession1. SparkContext1.1 是什么？如上图，SparkContext是Spark中Driver程序的一部分，向资源管理器cluster manager（可以是mesos、yarn、standalone）申请spark应用所需的资源executor，资源管理器在各个worker上分配一定的executor。当我们编写pyspark...

原创 2019-08-09 15:59:28 · 8950 阅读 · 0 评论
Spark学习—— (4) 基本使用（Python）

Spark支持Java、Python、Scala、R语法，可以通过spark-shell（Scala）或pyspark（Python）进行交互式的操作，也可以用spark-submit提交用Java、Python、Scala编写的应用。为了学习Spark的使用，本文不涉及原理，仅仅介绍Spark中Python的基本使用，为之后学习Spark的使用打下基础。本文使用部分全部来自官方参考文档Qui...

原创 2019-04-26 09:35:58 · 1225 阅读 · 0 评论
Spark学习—— (3) 运行模式Local,Standalone,YARN

Spark有多种运行模式，包括——local模式，本地运行Standalone模式，使用Spark原生的资源调度器YARN模式（生产模式中常用），使用Hadoop的YARN作为资源调度器Mesos模式，使用Mesos作为资源调度器本文主要介绍前面三种最常用的运行模式，其中每种模式又可细分为两种模式。在搭建好集群的基础上，使用各个模式分别运行，描述其运行过程。关于集群搭建，可以参考上...

原创 2019-04-22 14:53:17 · 2177 阅读 · 0 评论
Spark学习—— (2) 从零开始搭建Spark（StandAlone与YARN模式）与Hadoop集群

记录自己使用VMware搭建Spark集群的过程，使用三台虚拟机。若只需要Hadoop集群，则将5和7跳过即可；若只需要Spark Standalone模式的集群，则将6和7跳过即可。文章目录1. 环境2. 第一台虚拟机2.1 虚拟机创建2.2 Hadoop安装2.3 Spark安装3. 虚拟机复制3.1 修改用户名/组（看黑体）3.2 克隆虚拟机3.3 修改主机名称4. 配置ssh免密登陆...

原创 2019-04-21 14:44:51 · 756 阅读 · 0 评论
Spark启动失败：slave节点无法连接到master

1. 问题描述启动spark时报错，使用start_all.sh或在slave节点上start_slave.sh都报相同的错。报错信息如下：19/04/20 04:35:49 INFO Utils: Successfully started service 'sparkWorker' on port 45265.19/04/20 04:35:49 INFO Worker: Starti...

原创 2019-04-20 20:10:41 · 4902 阅读 · 1 评论
Spark学习—— (1+)补充Spark各个组件的简单介绍

之前的笔记中Spark学习—— (1) 原理介绍，对Spark的基本原理进行介绍，对于各个组件简单带过了，这里稍微补充一下。1. Spark的各个组件Spark的各个组件如下，在图中自底向上可分为三个部分：资源管理器、SparkCore、上层工具。cluster manager，资源管理器，使得Spark可以在集群上灵活地获取资源，可伸缩地进行高效计算Spark支持在各种资源管理器上...

原创 2019-09-18 09:59:52 · 316 阅读 · 0 评论
Spark学习—— (1) 原理介绍

本文分为三个部分：第一部分介绍Spark的概念，通过与Hadoop的对比，使得对Spark的定位有一个较清晰的理解。第二部分通过介绍基本术语，了解Spark基本、简略的运行流程，对Spark的运行流程有一个初步概念。第三部分以Standalone运行模式为例，稍微深入地介绍了Spark应用的运行流程，使得对Spark的运行流程的整个框架有一定理解。目前正在入门Spark，本文基本为学习网上...

原创 2019-04-15 16:46:24 · 529 阅读 · 0 评论
Hadoop学习——(5) MapReduce实现PageRank

文章目录1. PageRank原理1.1 简单例子1.2 终止点与陷阱2. MapReduce实现2.1 数据准备2.2 Map阶段2.3 Reduce阶段2.4 main函数2.5 运行结果Reference1. PageRank原理PageRank是一种计算网页重要程度的算法，算法根据网页之间的链接，为每个网页计算一个PageRank值，值越大表明网页越重要，在搜索结果中排在更前面的位置。...

原创 2019-04-09 09:15:21 · 2436 阅读 · 2 评论
Hadoop学习——(4) 开发环境与WordCount

本文分为两部分——第一部分介绍Hadoop开发的预备工作，即开发环境的准备；第二部分以wordcount程序为例，编写第一个MapReduce程序，包括程序的运行、源码解析、Combiner自定义，加深对MapReduce运行过程的理解。文章目录1.预备工作1.1 安装eclipse1.2 安装hadoop-eclipse-plugin插件2. WordCount程序2.1 数据准备2.2 ...

原创 2019-04-03 17:41:15 · 477 阅读 · 0 评论
Hadoop学习——(3) 基本使用

文章目录1. HDFS基本使用1.1 HDFS的存储目录1.2 HDFS基本命令1.3 读取、写入文件Reference1. HDFS基本使用1.1 HDFS的存储目录HDFS的文件存放在三类节点中，分别为NameNode、DataNode、Secondary NmaeNode，在hdfs-site.xml中配置的目录分别为/data/hadoop/hdfs/下的nn、dn、snn。查看n...

原创 2019-04-02 14:34:02 · 529 阅读 · 0 评论
Hadoop学习——(2) 安装过程记录（Ubuntu上的伪分布模式）

Hadoop学习——(2) 安装过程记录（伪分布模式）Hadoop有三种操作模式，分别为单机模式，伪分布模式和全分布模式。本文简单介绍和区分三种操作模式，并参考网上的文章，记录自己搭建伪分布模式集群的过程。最后使用hadoop提供的example程序尝试运行。文章目录Hadoop学习——(2) 安装过程记录（伪分布模式）1. Hadoop的三种模式2. JDK安装3. 安装hadoop4....

原创 2019-03-31 16:36:32 · 398 阅读 · 0 评论
Hadoop学习——(1) 基础知识

Hadoop学习——(1) 基础知识本文结构如下——第一部分，主要从整体上对Hadoop进行简单的介绍，使得对”Hadoop是什么“这个问题在脑海中有大致的答案；第二到第四部分，分别介绍Hadoop的存储模块HDFS、计算模块MapReduce、调度模块YARN，使得对Hadoop有更好的理解；第五部分，介绍Hadoop的生态圈中的若干产品，使得对Hadoop的现实应用有一定理解。文章目...

原创 2019-03-30 23:47:29 · 1386 阅读 · 0 评论

大数据学习记录

作者: 茵茵的聪聪

Spark2.X学习(1) - 结构化API概述（DataFrame与DataSet）

Spark入门程序WordCount实现（Java）

《Hive用户指南》- Hive性能调优

《Hive用户指南》- Hive的连接join与排序

《Hive用户指南》-HiveSQL转化为MapReduce任务

《Spark快速大数据分析》- Spark应用运行原理

《Spark快速大数据分析》- 根据简单例子理解RDD

Spark实战—— (2.1) HBase表格结构、物理存储结构与系统架构

Spark实战—— (1) zookeeper简介与环境搭建

Spark学习—— (6) 键值对RDD编程（基于Python）

Spark学习—— (5) RDD基础编程（基于Python）

Spark学习—— (4+) SparkContext与SparkSession

Spark学习—— (4) 基本使用（Python）

Spark学习—— (3) 运行模式Local,Standalone,YARN

Spark学习—— (2) 从零开始搭建Spark（StandAlone与YARN模式）与Hadoop集群

Spark启动失败：slave节点无法连接到master

Spark学习—— (1+)补充Spark各个组件的简单介绍

Spark学习—— (1) 原理介绍

Hadoop学习——(5) MapReduce实现PageRank

Hadoop学习——(4) 开发环境与WordCount

Hadoop学习——(3) 基本使用

Hadoop学习——(2) 安装过程记录（Ubuntu上的伪分布模式）

Hadoop学习——(1) 基础知识