hadoop
文章平均质量分 74
柏冉看世界
知之非难,行之不易。
展开
-
Cloudera系列(5)使用RDD转换数据
一、编写和传递转换函数二、转换执行三、RDD和DataFrame之间的转换四、基本要点五、实践练习:使用RDD转换数据1、探索Loudacre Web日志文件1、在本节中,您将使用$DEVDATA/weblogs中的数据。查看目录中的.log文件。注意这几行的格式:2、将“weblogs”目录从本地文件系统复制到HDFS目录“/devsh_loudacre”。$ hdfs dfs -put $DEVDATA/weblogs /devsh_loudacre/3、在Spark中,从HDF原创 2021-11-14 22:39:24 · 2322 阅读 · 0 评论 -
Cloudera系列(4)RDD Overview
一、RDD Overview二、RDD Data Sources三、Creating and Saving RDDs四、RDD操作五、基本要点六、实践练习:使用RDD1、查看RDD操作的API文档1、查看RDD类的API文档(它在Python模块pyspark和Scala包org.apache.spark.rdd中)。注意各种可用的操作2、从文本文件读取和显示数据2、通过在单独的窗口(不是Spark shell)中查看(不编辑)文件,查看您将要使用的简单文本文件。该文件位于$DEVDATA原创 2021-11-02 23:23:03 · 1317 阅读 · 0 评论 -
Cloudera系列(3)使用DataFrame的Queries分析数据
一、使用列表达式查询数据帧(DataFrame)1、列、列名和列表达式原创 2021-10-24 23:45:46 · 2864 阅读 · 0 评论 -
Cloudera系列(2)使用数据帧(DataFrame)和模式(Schemas)
一、原创 2021-10-21 23:04:58 · 680 阅读 · 0 评论 -
Cloudera系列(1)Apache Spark基础知识
一、What is Apache Spark?Apache Spark是一种用于大规模数据处理的快速通用引擎。Written in Scala运行在JVM中的函数式编程语言Spark shell交互式学习、数据探索或特别分析Python and ScalaSpark applications用于大规模数据处理Python, Scala, and JavaSpark提供了一个构建在core Spark上的库堆栈Core Spark提供了Spark的基本抽象:弹性分布原创 2021-10-18 23:28:35 · 333 阅读 · 0 评论 -
Hadoop学习笔记(28)Flume的命令和配置文件介绍
一、原创 2021-06-27 23:18:52 · 1258 阅读 · 1 评论 -
Hadoop学习笔记(27)Flume的简介以及安装部署
一、Flume的简介Flume是Cloundera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合、传输的系统。Flume基于流式架构,灵活简单。Flime最主要的作用是:实时读取服务器本地磁盘的数据,将数据写入到HDFS。1、Flume基础架构Flume基础组成架构如图:...原创 2021-06-14 20:47:32 · 359 阅读 · 3 评论 -
Hadoop学习笔记(25)Azkaban的作业调度
一、原创 2021-05-30 07:18:49 · 200 阅读 · 0 评论 -
Hadoop学习笔记(24)Linux CLI的作业调度(原始方式)
截止目前,命令行(CLI)界面有linux的CLI、hive的CLI、mysql的CLI。而hive的CLI、mysql的CLI都是需要在linux的CLI输入命令hive或者mysql才能进入。[admin@master ~]$ hive[admin@master ~]$ mysql一、在linux的CLI进行hive交互1、如何在linux的CLI界面执行hive的命令语句,而不需要进入到hive的CLI中?在linux的CLI中输入命令hive --help --service cli,原创 2021-05-30 03:04:58 · 92 阅读 · 0 评论 -
Hadoop学习笔记(23)Azkaban的简介以及安装部署
一、Azkaban的简介Azkaban是由Linkedin开源的一个批量工作流(WorkFlow)任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban具有如下功能特点:Web用户界面方便上传工作流方便设置任务之间的关系调度工作流认证/授权(权限的工作)能够杀死并重新启动工作流模块化和可插拔的插件机制项目工作区...原创 2021-05-24 23:14:57 · 579 阅读 · 4 评论 -
Hadoop学习笔记(21)Sqoop的应用开发(一个ETL工具)
一、原创 2021-05-15 17:12:42 · 242 阅读 · 5 评论 -
Hadoop学习笔记(19)Hive的数据查询、JOIN连接以及内置函数
一、SELECT语句1、查询所有hive> select * from sougou.table_partition;2、查询10条数据hive> select * from sougou.table_partition limit 10;3、统计条数hive> select count(distinct uid) from sougou.table_partition;二、WHERE语句hive> select * from sougou.table_part原创 2021-04-22 22:23:46 · 412 阅读 · 0 评论 -
Hadoop学习笔记(18)Hive的数据定义和数据操作
一、原创 2021-04-19 22:33:57 · 188 阅读 · 0 评论 -
Hadoop学习笔记(17)Hive的数据类型和文件编码
一、Hive的常用内部命令1、有好几种方式可以与Hive进行交互。此处主要是命令行界面(CLI)。2、$HIVE_HOME/bin目录下包含了可以执行各种各样Hive服务的可执行文件,包括hive命令行界面(CLI是使用Hive的最常用方式)。[admin@master ~]$ cd apache-hive-1.2.2-bin/bin[admin@master bin]$ lsbeeline ext hive hive-config.sh hiveserver2 metatool原创 2021-03-22 01:14:15 · 1313 阅读 · 0 评论 -
Hadoop学习笔记(16)Hive的基本概念、Hive的下载与安装、MySQL数据库下载与安装
一、Hive基本概念Hive简介Hive是一个基于hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用HQL(类SQL)语言对这些数据进行自动化管理和处理。我们可以把Hive中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在HDFS中的。Hive经过对语句进行解析和转换,最终生成一系列基于hadoop的map、reduce任务,通过执行这些任务完成数据处理。Hive不仅提供了原创 2021-03-20 20:11:41 · 634 阅读 · 0 评论 -
Hadoop学习笔记(10)HDFS接口
HDFS概念:Hadoop有一个抽象的文件系统概念,它提供了文件系统实现的各类接口,HDFS只是其中一个实现,提供了一个文件系统抽象类org.apache.hadoop.fs.FileSystem,它定义了hadoop中的文件系统接口,并且该抽象类有具体实现。Hadoop对文件系统提供了许多接口,它一般使用URL方案来选取合适的文件系统实例进行交互。URL:统一资源定位符如:hdfs://master:9000/test/t1.txt如:www.baidu.com(此两为url)URI原创 2021-03-07 23:14:24 · 1309 阅读 · 0 评论 -
Hadoop学习笔记(9)从三个方面去初步了解HDFS
HDFS简介1、什么是HDFS?HDFS是指Hadoop Distributed FileSystem简称,也成为hadoop分布式文件系统2、关键词:分布式比如现在A B C D四个节点机器,每个几点硬盘容量为2T,总共容量8T。当现在有一份3T的数据文件需要存储,可以发现单独一个节点都无法存储,所以分布式系统会把该数据分别存到多个节点中。图中的block1、block2、block3都分别有3个,1个正式数据块,2个为副本数据块(系统默认是3个),map随机选择一个,再传reduce。3、原创 2021-03-06 20:59:09 · 157 阅读 · 1 评论 -
Hadoop学习笔记(2)Hadoop节点部署
一、Hadoop分布式架构在hadoop架构中,有两种节点角色:Master主节点NameNode(NN)SecondaryNameNode(SNN)ResourceManager(RM)Slave从节点NodeManager(NM)DataNode(DN)原创 2021-02-28 15:44:48 · 136 阅读 · 0 评论 -
Hadoop学习笔记(8)启动Hadoop集群
一、原创 2021-02-28 15:44:00 · 1094 阅读 · 0 评论 -
Hadoop学习笔记(7)Hadoop解压安装以及配置
一、安装Hadoop之前说明安装Hadoop需要在官网把Hadoop文件下载好,并且上传到Linux中。上传步骤请参考:Hadoop学习笔记(6)如何使用Xshell从Windows向Linux上传文件二、解压安装Hadoop输入命令查看文件存放[admin@master ~]$ lshadoop-3.1.4.tar.gz test usr 公共 模板 视频 图片 文档 下载 音乐 桌面开始解压安装[admin@master ~]$ tar -zxvf hadoop-3原创 2021-02-02 12:47:22 · 6102 阅读 · 0 评论 -
Hadoop学习笔记(4)安装JDK以及配置环境变量
一、原创 2021-01-30 18:17:40 · 411 阅读 · 0 评论 -
Hadoop学习笔记(6)如何使用Xshell从Windows向Linux上传文件
在部署hadoop环境是,经常需要把下载好放在window系统本地的文件上传到Linux系统本地文件夹中。以上传JDK文件为例。上传步骤如下:1、输入rz命令,查看该命令是否存在[admin@master ~]$ rzbash: rz:conmand not found2、出现以上消息则代表该命令不存在。如果输入命令会弹出选择文件的窗口,则代表命令存在,可以正常使用。那么,当命令不存在时,则需要安装lrzsz,输入如下命令,并等待完成安装[root@master ~]# yum -y in原创 2021-01-30 16:58:10 · 769 阅读 · 0 评论 -
Hadoop学习笔记(5)免密钥登录配置
一、在配置免密钥之前修改hostname二、在HadoopMaster节点配置免密钥1、概述该部分所有的操作都要在admin用户(是普通用户,不是root用户)下,换回admin的命令是:su - admin输入密码。当通过一个节点访问另外一个节点时,虽然没有了防火墙的限制,但还会有密码的限制。hadoop集群的启动主要有两种方式:一键启动逐个节点进程启动一般情况下使用一键启动,主节点启动时,带动从节点启动集群。Hadoop集群在启动时通过一个脚本在主节点运行,主节点带动从节点运行原创 2021-01-30 15:06:39 · 1040 阅读 · 3 评论 -
Hadoop学习笔记(3)Linux环境配置与部署
一、原创 2021-01-30 13:02:22 · 240 阅读 · 0 评论 -
Hadoop学习笔记(1)基于VMware的hadoop环境搭建笔记
一、Vmware16下载1、在Vmware官网下载2、下载后,自行安装。点击打开Vmware二、下载CentOS 7 64位1、输入CentOS官网地址https://www.centos.org/,并点击下载页面进行下载2、选择CentOS 7 64位3、此处我选择下载的是阿里云的4、下载完成,保存到相应的存放路径即可。三、创建虚拟机1、点击新建虚拟机2、选择典型安装(有些小的功能可以选择自定义安装)。3、选择稍后安装操作系统(方便后续安装可视化界面)4、选择已原创 2021-01-12 22:04:40 · 327 阅读 · 0 评论