自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 HDFS分布式文件存储

1.hdfs的一些概念: 典型的 Master/Slave 架构 分块存储(block机制)hadoop2.X默认是128M 命名空间(NameSpace) HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录然后将文件保存在这些目录里。文件系统名字空间的层次 结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。namenode负责维护文件系统的名字空间,任何对 文件系统名字空间或属性的修改都将被Namenod...

2020-09-28 15:13:56 220

原创 初识大数据

1,大数据技术解决的主要是海量数据的存储和计算。 hadoop分为广义和狭义之分: 狭义的hadoop指的是一个框架,hadoop是由三部分组成:hdfs:分布式文件系统,作用是存储;mapreduce:分布式离线计算框架,作用:计算;yarn:资源调度框架; 广义的hadoop不仅仅包含了hadoop框架,还有一些辅助的框架,flume,sqoop,hive,hbase等,指的是一个生态圈。 2,大数据的定义: 大数据是指无法在一定时间范围内用常规软件工具...

2020-09-26 21:07:53 128

原创 Hive——函数操作(一)

一,系统内置函数: 1.查看系统函数 -- 查看系统自带函数 show functions; -- 显示自带函数的用法 desc function upper; desc function extended upper; 2,日期函数

2020-10-02 23:05:45 174

原创 java设计模式——单例模式

一,单例设计模式,就是采取一定的方法保证在整个的软件系统中,对某个类只能存在一个对象实例, 并且该类只提供一个取得其对象实例的方法(静态方法)。 二,单例模式有八种方式(大的来说有五种 饿汉式 懒汉式 双重检查 静态内部类 枚举) 1.饿汉式(静态常量) 优点:这种写法比较简单,就是在类装载的时候就完成实例化。避免了线程同步问题。 缺点:在类装载的时候就完成实例化,没有达到 LazyLoading 的效果。如果从始至终从未使用过这个实例,则会造成内存的浪费这种方式基于 classloder机..

2020-10-02 16:32:08 86

原创 java设计模式简介

一,设计模式的七大原则: 1,单一职责原则 :对一个类应该只负责一想职责。提高类的可维护性,可读性,降低变更引起的风险。 2,接口隔离原则(Interface Segregation Principle) 3,依赖倒转原则, 4,里氏替换原则 5,开闭原则 ocp 6,迪米特法则 7,合成复用原则 二,设计模式的目的 代码重用性(相同功能的代码,不用多次编写) 可读性(编程规范,便于他人理解和阅读) 可扩展性(可维护性,增加新功能时,非常方便) 可靠性(新增功能后,对原来的功能没有影

2020-10-02 10:15:02 91

原创 Hive系列三 HQL操作

一,DDL命令 DDL(data definition language): 主要的命令有CREATE、ALTER、DROP等。 DDL主要是用在定义、修改数据库对象的结构 或 数据类型。 1.数据库操作 创建数据库语法 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [MANAGEDLOCATION hdfs_path] [

2020-09-30 17:00:23 197

原创 Hive系列二 数据类型和文件格式

Hive支持关系型数据库的绝大多数基本数据类型,同时也支持4种集合数据类型。 基本数据类型及转换 集合数据类型 文本文件数据编码 Hive表中的数据在存储在文件系统上,Hive定义了默认的存储格式,也支持用户自 定义文件存储格式。 Hive默认使用几个很少出现在字段值中的控制字符,来表示替换默认分隔符的字符。 Hive默认分隔符 默认的分隔导致可读性极差 读时模式 在传统数据库中,在加载时发现数据不符合表的定义,则拒绝加载数据。数据在写入数据库时..

2020-09-30 10:21:34 85

原创 Hive系列一 Hive安装与配置

安装: Hive官网:http://hive.apache.org 下载网址:http://archive.apache.org/dist/hive/ 文档网址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual MySql的安装与配置: 1.删除Mariadb # 查询是否安装了mariadb rpm -aq | grep mariadb # 删除mariadb。-e 删除指定的套件;--..

2020-09-30 09:25:09 359

原创 Mysql的安装

MySQL安装配置 官网下载地址 https://dev.mysql.com/downloads/file/?id=471503 2.检测本地是否有mysql已存在的包 rpm -qa | grep mysql 3.检测本地是否有mariadb已存在的包 rpm -qa | grep mariadb 4.如果存在,则使用yum命令卸载 mariadb-libs-5.5.56-2.el7.x86_64 yum -y remove mariadb-libs-5.5.56-2.e...

2020-09-30 08:50:38 86

原创 Hive概要

一,Hive出现的背景: - MapReduce 开发难度大,学习成本高(wordCount => Hello World) - Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理 - 使用MapReduce框架开发,项目周期长,成本高 Hive是基于Hadoop的一个数据仓库工具,可以将 结构化的数据文件映射为一张表 (类似于RDBMS中的表),并提供类SQL查询功能;Hive是由Facebook开源,用于解决海量结构化日志的数据统计。 Hive本质是:将 SQL 转换为 .

2020-09-30 08:31:03 125

原创 YARN资源调度知识概要

一,Yarn架构 ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度; NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令; ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。 Container:对任务运行环境的抽象,封装了CPU、内存等多维

2020-09-29 23:34:18 165

原创 MapReduce框架

1.MapReduce的思想核心是分 而治之, 充分利用了并行处理的优势。

2020-09-29 18:04:19 242

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除