自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不念人间朝暮的博客

大数据学习之路

  • 博客(32)
  • 收藏
  • 关注

原创 spark-core

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

2022-09-15 15:51:12 89 1

原创 spark基础

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。spark core:实现了spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

2022-08-24 15:36:44 367

原创 八、大数据之Flume-01

八、大数据之Flume-01概述1、Flume定义​ Flume是Cloudera提供的一个高可用,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。​ Flume主要的作用就是:实时读取服务器本地磁盘的数据,将数据写入到HDFS。2、Flume组成架构​ Flume组成架构图如下:(1)Agent​ Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是Flume数据传输的基本单元。​ Agent主要有3个部分组成,Sourc

2021-08-24 15:00:46 379

原创 七、HBASE-07

七、HBASE-07HBase优化1、高可用​ 在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配置。#1、关闭HBase集群(如果没有来开启则跳过此步)[lyinl@hadoop102 hbase]$ bin/stop-hbase.sh#2、在conf目录

2021-08-24 12:54:23 1131

原创 七、HBASE-06

七、HBASE-06HBaseAPI操作1、环境准备​ 新建项目后再pom.xml中添加依赖:<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</version></dependency><dependency> <gro

2021-08-23 21:47:48 120

原创 七、HBASE-05

七、HBASE-05HBase原理1、写流程​ HBase写数据流程如图所示:​ 1)Client向HregionServer发送写请求:​ 2)HregionServer将数据写到Hlog(write ahead log)。为了数据的持久化和恢复;​ 3)HregionServer将数据写到内存(MemStore);​ 4)反馈Client写成功。2、读流程​ 1)Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。met

2021-08-23 20:10:38 52

原创 七、HBASE-04

七、HBASE-04HBase数据结构1、RowKey​ 与nosql数据库一样,RowKey是用来检索记录的主键。访问HBASE table中的行,只有三种方式。​ 1、通过单个RowKey访问​ 2、通过RowKey的range(正则)​ 3、全表扫描​ RowKey行键(RowKey)可以是任意字符串(最大长度是64kb,实际应用中长度一般为10-100bytes),在HBASE内部,RowKey保存为字节数组。存储时,数据按照RowKey的字典序(byte order)排序存

2021-08-23 19:04:52 78

原创 七、HBASE-03

七、HBASE-03HBase Shell操作1、基本操作#进入HBase客户端命令行[lyinl@hadoop102 hbase]$ bin/hbase shell#查看帮助命令hbase(main):001:0> help#查看当前数据库中有哪些表hbase(main):002:0> list2、表的操作#创建表hbase(main):002:0> create 'student','info'#插入数据到表hbase(main):003:0>

2021-08-22 21:43:30 61

原创 七、HBASE-02

七、HBASE-02HBase安装1、Zookeeper正常部署​ 首先保证Zookeeper集群的正常部署,并启动:[lyinl@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start[lyinl@hadoop103 zookeeper-3.4.10]$ bin/zkServer.sh start[lyinl@hadoop104 zookeeper-3.4.10]$ bin/zkServer.sh start2、Hadoop正常部署​ H

2021-08-22 21:27:48 69

原创 七、HBASE-01

七、HBASE-01HBASE概述1、HBase概念​ 官方网站:http://hbase.apache.org​ HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBASE 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。​ HBase 的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。2、HBase特点(1)海量储存​ Hbase 适合存储 PB 级别的海量数据,在

2021-08-22 20:02:02 59

原创 六、大数据之Hive-09

六、大数据之Hive-09Hive调优1、Fetch抓取​ Fetch抓取是指:Hive中对某些情况的查询可以不必使用MapReduce计算。例如:select *from employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。​ 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认minimal,该属性修改为more以后,在全局查找、字

2021-08-22 18:44:35 98

原创 六、大数据之Hive-08

六、大数据之Hive-08压缩和存储1、Hadoop源码编译支持Snappy压缩1、资源准备​ (1)CentOS联网​ 配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的​ 注意:采用 root角色编译,减少文件夹权限出现问题2、jar包准备(hadoop源码、JDK8、maven、protobuf)​ (1)Hadoop-2.7.2-src.tar.gz​ (2)jdk-8u144-linux-x64.tar.gz​ (3)snap

2021-08-19 19:58:52 100

原创 六、大数据之Hive-07

六、大数据之Hive-07函数(Function)1、系统内置函数#查看系统自带的函数hive> show functions;#显示自带的函数的用法hive> desc function upper;#详细显示自带的函数的用法hive> desc function extended upper;2、自定义函数​ (1)Hive自带了一些函数,比如max/min等,但是数量有限,自己可以通过自定义UDF来方便的拓展。​ (2)当Hive提供的内置函数无法满足

2021-08-19 18:24:20 72

原创 六、大数据之Hive-06

六、大数据之Hive-06查询​ 查询语句语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only availablestarting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][ORD

2021-08-19 17:50:22 242

原创 六、大数据之Hive-05

六、大数据之Hive-05DML数据操作1、数据导入1、向表中装载数据(Load)​ (1)语法hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];​ a、load data:表示加载数据​ b、local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive

2021-08-18 20:51:54 83

原创 六、大数据之Hive-04

六、大数据之Hive-04DDL数据定义1、创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];​ 1、创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)&

2021-08-18 20:18:17 333

原创 六、大数据之Hive-03

六、大数据之Hive-03Hive数据类型1、基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort1byte有符号整数20INTint1byte有符号整数20BIGINTlong1byte有符号整数20BOOLEANboolean布尔类型TRUE 、FALSEFLOATfloat单精度数3.14159DOUBLEdouble双精度浮点

2021-08-18 16:46:05 86

原创 六、大数据之Hive-02

六、大数据之Hive-02Hive安装1、Hive安装地址1.Hive 官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/4.github 地址https://github.com/apache/hive2、Hive安装部署1、Hive安装及配置​ (

2021-08-18 16:04:19 133

原创 六、大数据之Hive-01

六、大数据之Hive-01Hive基本概念1、Hive的认识​ Hive 由FaceBook开源用于解决海量结构化日志的数据统计。​ Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。​ 本质是将HQL转化成MapReduce程序1、HIve处理的数据存储在HDFS2、Hive分析数据底层的实现是MapReduce3、执行程序运行在Yarn上2、Hive的优缺点1)优点​ a、操作接口采用类SQL语法,提供快速开发的能力

2021-08-18 13:13:02 129

原创 五、大数据之 Zookeeper

五、大数据之 Zookeeper1、Zookeeper的节点类型​ 持久(Persistent):客户端和服务器端断开连接后,创建的节点不删除​ 短暂(Ephemeral):客户端和服务器端断开连接后,创建的节点不删除​ (1)吃就换目录节点​ 客户端与Zookeeper断开连接后,该节点依旧存在​ (2)持久化顺序编号目录节点​ 客户端与Zookeeper都拿开连接后,该节点依旧存在,只是Zookeeper给该节点名称进行顺序编号​ (3)临时目录节点​ 客户端与

2021-08-18 12:13:46 230

原创 HDFS之MapReduce(特别篇)

HDFS之MapReduce(特别篇)1、MapReduce概述1、MapReduce定义​ MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。​ MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整分布式运算程序,并发运行在一个Hadoop集群上。2、MapReduce优点1、MapReduce易于编程​ 它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。

2021-08-17 22:06:27 789

原创 四、HADOOP(HDFS)-08

四、HADOOP(HDFS)-08HDFS HA 高可用1、HA 概述​ 1)所谓 HA(High Available),即高可用(7*24 小时不中断服务)。​ 2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制:​ HDFS 的 HA 和 YARN 的 HA。​ 3)Hadoop2.0 之前,在 HDFS 集群中 NameNode 存在单点故障(SPOF)。​ 4)NameNode 主要在以下两个方面影响 HDFS 集群​ NameNode

2021-08-17 18:31:01 112

原创 四、HADOOP(HDFS)-07

四、HADOOP(HDFS)-07HDFS2.X新特性1、集群间数据拷贝​ 1、scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/hello.txt #推 pushscp -r root@hadoop103:/user/hello.txt hello.txt # 拉 pullscp -r root@hadoop103:/user/hello.txt root@hadoop104:/user/#通过本地主机中转实现两个远程主机的文

2021-08-11 19:40:11 100

原创 四、HADOOP(HDFS)-06

四、HADOOP(HDFS)-06DataNode(重点)1、DataNode工作机制​ 如下图:​ (1) 一个数据块DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、块数据的校验和、以及时间戳。​ (2) DataNode启动后向NameNode注册,通过后,周期性(1小时)的NameNode上包所有的块信息。​ (3) 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某

2021-08-11 18:25:32 70

原创 四、HADOOP(HDFS)-05

四、HADOOP(HDFS)-05NameNode 和 SecondaryNameNode(重点)1、NameNode和SecondaryNameNode工作机制1、NameNode的工作机制(1)第一阶段:NameNode启动a、第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。b、客户端对元数据进行增删改的请求。c、NameNode 记录操作日志,更新滚动日志。d、NameNode在内存中对数据进行增删改。(

2021-08-11 16:16:34 149

原创 四、HADOOP(HDFS)-04

四、HADOOP(HDFS)-04HDFS数据流(重点)1、HDFS写数据流程1、剖析文件的写入(1) 客户端通过Distributed FilSystem 模块向NameNode请求上传文件,NameNode检查目标文件是否已经存在,父目录是否存在。(2) NameNode返回是否可以上传。(3) 客户端请求第一个Block上传到哪几个DataNode服务器上。(4) 客户端通过FSDataOutputStream 模块请求dn1上传数据,dn1疏导请求会继续调用dn2,然后dn2调用dn

2021-08-09 18:10:12 79

原创 四、HADOOP(HDFS)-03

四、HADOOP(HDFS)-03HDFS客户端操作1、HDFS 客户端环境准备1、根据自己电脑的操作系统拷贝对应的编译后的 hadoop jar 包到非中文路径(例如:D:\Develop\hadoop-2.7.2)2、配置 HADOOP_HOME 环境变量3、配置 Path 环境变量4、创建一个 Maven 工程 HdfsClientDemo5、导入相应的依赖坐标+日志添加<dependencies><dependency><groupId>

2021-08-09 08:18:48 195

原创 四、HaDOOP(HDFS)-02

四、HaDOOP(HDFS)-02HDFS之shell操作1、基础语法bin/hadoop fs 具体命令bin/hdfs dfs 具体命令2、命令大全[lyinl@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R

2021-08-08 23:06:04 81

原创 四、HADOOP(HDFS)—01

四、HADOOP(HDFS)—011、Haoop常用端口号Hadoop2.xhadoop3.x访问HDFS端口500709870访问MR执行情况端口80888088历史服务器1988819888客户端访问集群端口900080202、Hadoop配置及集群的搭建(1) 配置文件:Hadoop2.xHadoop3.xcore-site.xmlcore-site.xmlhdfs-site.xmlhdfs-site.

2021-08-08 22:13:50 89

原创 三、大数据之Mysql进阶

三、Mysql进阶一、事务所谓事务,简而言之,就是一条或者是一组语句组成一个单元,这个单元要么全部执行,要么全不执行。1、事务的四大特性原子性(Atomicity)指事务是一个不可分割的,要么都执行,要么都不执行。一致性(Consistency)事务必须使得数据库从一个一致性状态,到例外一个一致性状态。隔离性(Isolation)一个事务的执行,不能被其他的事务所干扰持久性(Durability)指一个事务一旦提交了之后,对数据库的改变就是永久的2、事务的并发问题(1)数据的脏读

2021-08-08 19:48:58 154 1

原创 二、大数据之MYSQL基础

二、MYSQL1、Mysql的分类数据查询语言(DQL)select数据操纵语言(DML)insert,delete,update数据定义语言(DDL)create,drop,alter事务控制语言(TCL)commit,rollback数据控制语言(DCL)grank,revoke2、Mysql的语法1、创建数据库和表create database 库名create table 表名2、查询数据select 字段 from 表名3、删

2021-08-08 17:09:17 189

原创 2021-08-08

一、LIUNX$Shell1、命令查看磁盘大小du -sh(总) du -h(子目录)查看各个分区的占用情况df -h查看进程 ,grep(管道)grep ps -aux | grep (名称)查看内存cat /proc/meminfo查看端口占用netstat -tnlp | grep :(端口号)查看某个文件locate (文件名)" " " ‘’查看某个环境的配置echo $JAVA_HOME(例子)2、目录/bin存

2021-08-08 15:14:08 45

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除