大数据Hadoop教程
Snowing_inhope
这个作者很懒,什么都没留下…
展开
-
Haddoop大数据教程笔记_13_Spark基础
Spark基础Spark简介Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项...原创 2020-05-07 12:48:37 · 344 阅读 · 0 评论 -
Haddoop大数据教程笔记_12_Scala基础
目录Scala 安装及应用Scala简介Scala安装: 1.window安装: 2.Linux安装 3.启动:Scala基础应用 1.数据类型,变量,方法,函数 2.复杂函数 3.集合常用操作其他复杂操作:1.scala 单例对象Object2.scala 类,柱构造器,辅助构造器3....原创 2020-05-04 21:12:45 · 352 阅读 · 0 评论 -
Haddoop大数据教程笔记_11_Hadoop辅助工具——Flume&Sqoop
目录前言1. Flume日志采集框架1.1 Flume介绍1.1.1 概述1.1.2 运行机制1.1.4 Flume采集系统结构图1.2 Flume实战案例1.2.1 Flume的安装部署1.2.2 采集案例1.3 更多source和sink组件2. sqoop数据迁移工具2.1 概述2.2 工作机制2.3 sqoop实战及原理2.3.1...原创 2020-04-19 00:45:50 · 610 阅读 · 0 评论 -
Haddoop大数据教程笔记_010_HBASE安装及使用
目录HBASE安装及使用HBASE简介:HBASE是一个数据库----可以提供数据的实时随机读写HBASE相比于其他nosql数据库(mongodb、redis、cassendra、hazelcast)的特点:HBASE安装:HBASE是一个分布式系统安装准备:安装步骤:1.安装zookeeper(前文已述)2.安装hbase3.启动hbase集群(hd...原创 2020-04-17 19:16:15 · 447 阅读 · 0 评论 -
Haddoop大数据教程笔记_09_HIVEsql复杂用法举例
目录HIVEsql复杂用法举例1.保存select查询结果的几种方式:2.行转列,根据主键对某列进行合并3.列转行,将某列数据拆分成多行4.hive实现wordcount5.级联查询实现累积报表(笨办法)6-12均为9.hive 窗口分析函数6.窗口分析函数 sum() over() :可以实现在窗口中进行逐行累加(简单办法)7.分组排序求topn8.各种...原创 2020-04-17 19:04:27 · 605 阅读 · 0 评论 -
Haddoop大数据教程笔记_08_Hive搭建及使用
目录Hive操作笔记Hive 安装1、Mysql安装(hive元数据记录可以使用内嵌derby数据库,但一般选择MySQL)2、hive安装:3.hive使用方式最基本使用方式启动一个hive交互shell启动hive服务使用脚本化运行4.hive建库建表与数据导入4.1.建库4.2.建表5.hive查询语法6.hive常见参数7.h...原创 2020-04-17 13:30:50 · 436 阅读 · 0 评论 -
Haddoop大数据教程笔记_07_Hadoop HA(高可用)集群搭建
目录hadoop的HA工作机制示意图:Hadoop HA(高可用)集群搭建集群节点配置基础:安装步骤:1.安装配置zooekeeper集群(在hadoop05上)2.安装配置hadoop集群(在hadoop00上操作)hadoop的HA工作机制示意图:Hadoop HA(高可用)集群搭建hadoop2.0已经发布了稳定版本了,增加了很多特性,比如...原创 2020-04-17 13:05:08 · 299 阅读 · 0 评论 -
Haddoop大数据教程笔记_06_Zookeeper简介及安装搭建
zookeeper的功能和应用场景图示:zookeeper集群结构示意图:zookeeper案例示意图:Hadoop之Zookeeper简介及安装Zookeeper简介Zookeeper: 是一个分布式的、开源的程序协调服务,是 hadoop 项目下的一个子项目,一个基础组件。主要提供2个服务:1)为客户端管理少量的数据kv(采用树状目录结...原创 2020-04-17 12:51:12 · 272 阅读 · 0 评论 -
Haddoop大数据教程笔记_05_Hadoop之MapReduce原理及Yarn相关
目录Hadoop之MapReduce原理及Yarn相关MapReduce简介自动化调度平台——YARNYARN集群启动mapreduce Java编程实例:1.extends Mapper类,并重写map(){}方法,实现map的逻辑:2.extends Reducer类,并重写reduce(){}方法,实现reduce的逻辑:3.job的客户端程序,提交mapre...原创 2020-04-17 12:43:36 · 390 阅读 · 0 评论 -
Haddoop大数据教程笔记_04_HDFS的核心工作原理
HDFS的核心工作原理及读写数据流程1.hdfs整体运行机制hdfs:分布式文件系统hdfs有着文件系统共同的特征:1)有目录结构,顶层目录是: /2)系统中存放的就是文件3)系统可以提供对文件的:创建、删除、修改、查看、移动等功能hdfs跟普通的单机文件系统有区别:1)单机文件系统中存放的文件,是在一台机器的操作系统中2)hdfs的文件系统会横跨N...原创 2020-04-17 12:19:31 · 310 阅读 · 0 评论 -
Haddoop大数据教程笔记_03_Hadoop安装部署及HDFS文件系统操作
目录1. Hadoop安装部署1.1 Hadoop安装包下载: 1.2 下载后上传文件并解压:2.HDFS文件系统操作2.1修改配置文件2.1.1 修改hadoop-env.sh 指定Java的安装目录2.1.2 修改core-site.xml --指定hadoop的默认文件系统2.1.3 修改hdfs-site.xml 指定namenode、d...原创 2020-04-16 12:58:49 · 479 阅读 · 0 评论 -
Haddoop大数据教程笔记_02_Hadoop生态圈简介
Hadoop生态圈简介目录Hadoop生态圈简介Hadoop生态圈:(一)Hdfs(二)Mapreduce(三)Hive(四)Hbase(五)Zookeeper(六)Sqoop(七)Pig(八)Mahout(九)Flume(十)Spark(十一)Storm(十二)Impala(十三)Kafka(十四)Yarn(十五)Hue...原创 2020-04-16 12:38:09 · 762 阅读 · 0 评论 -
Haddoop大数据教程笔记_01_集群搭建
Hadoop环境搭建笔记(一) ————集群服务器部署目录 1.服务器基础配置:1.1服务器以CentOS7-Minimal为例1.2修改CentOS7网络配置1.2.1修改原因1.2.2步骤:1.3关闭防火墙(便于集群通信)1.4 JDK安装(Hadoop体系中的各软件都是java开发的) 1.4.1JDK8下载地址...原创 2020-04-16 12:24:33 · 403 阅读 · 0 评论