- 博客(12)
- 收藏
- 关注
原创 HDFS分布式文件存储
1.hdfs的一些概念: 典型的 Master/Slave 架构 分块存储(block机制)hadoop2.X默认是128M 命名空间(NameSpace) HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录然后将文件保存在这些目录里。文件系统名字空间的层次 结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。namenode负责维护文件系统的名字空间,任何对 文件系统名字空间或属性的修改都将被Namenod...
2020-09-28 15:13:56 245
原创 初识大数据
1,大数据技术解决的主要是海量数据的存储和计算。 hadoop分为广义和狭义之分: 狭义的hadoop指的是一个框架,hadoop是由三部分组成:hdfs:分布式文件系统,作用是存储;mapreduce:分布式离线计算框架,作用:计算;yarn:资源调度框架; 广义的hadoop不仅仅包含了hadoop框架,还有一些辅助的框架,flume,sqoop,hive,hbase等,指的是一个生态圈。2,大数据的定义: 大数据是指无法在一定时间范围内用常规软件工具...
2020-09-26 21:07:53 146
原创 Hive——函数操作(一)
一,系统内置函数:1.查看系统函数-- 查看系统自带函数 show functions; -- 显示自带函数的用法 desc function upper;desc function extended upper;2,日期函数
2020-10-02 23:05:45 195
原创 java设计模式——单例模式
一,单例设计模式,就是采取一定的方法保证在整个的软件系统中,对某个类只能存在一个对象实例, 并且该类只提供一个取得其对象实例的方法(静态方法)。二,单例模式有八种方式(大的来说有五种 饿汉式 懒汉式 双重检查 静态内部类 枚举)1.饿汉式(静态常量)优点:这种写法比较简单,就是在类装载的时候就完成实例化。避免了线程同步问题。缺点:在类装载的时候就完成实例化,没有达到 LazyLoading 的效果。如果从始至终从未使用过这个实例,则会造成内存的浪费这种方式基于 classloder机..
2020-10-02 16:32:08 103
原创 java设计模式简介
一,设计模式的七大原则:1,单一职责原则 :对一个类应该只负责一想职责。提高类的可维护性,可读性,降低变更引起的风险。2,接口隔离原则(Interface Segregation Principle)3,依赖倒转原则,4,里氏替换原则5,开闭原则 ocp6,迪米特法则7,合成复用原则二,设计模式的目的代码重用性(相同功能的代码,不用多次编写) 可读性(编程规范,便于他人理解和阅读) 可扩展性(可维护性,增加新功能时,非常方便) 可靠性(新增功能后,对原来的功能没有影
2020-10-02 10:15:02 111
原创 Hive系列三 HQL操作
一,DDL命令DDL(data definition language): 主要的命令有CREATE、ALTER、DROP等。 DDL主要是用在定义、修改数据库对象的结构 或 数据类型。 1.数据库操作创建数据库语法CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [MANAGEDLOCATION hdfs_path] [
2020-09-30 17:00:23 233
原创 Hive系列二 数据类型和文件格式
Hive支持关系型数据库的绝大多数基本数据类型,同时也支持4种集合数据类型。 基本数据类型及转换集合数据类型文本文件数据编码Hive表中的数据在存储在文件系统上,Hive定义了默认的存储格式,也支持用户自 定义文件存储格式。 Hive默认使用几个很少出现在字段值中的控制字符,来表示替换默认分隔符的字符。Hive默认分隔符 默认的分隔导致可读性极差读时模式在传统数据库中,在加载时发现数据不符合表的定义,则拒绝加载数据。数据在写入数据库时..
2020-09-30 10:21:34 104
原创 Hive系列一 Hive安装与配置
安装:Hive官网:http://hive.apache.org 下载网址:http://archive.apache.org/dist/hive/ 文档网址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual MySql的安装与配置:1.删除Mariadb# 查询是否安装了mariadb rpm -aq | grep mariadb # 删除mariadb。-e 删除指定的套件;--..
2020-09-30 09:25:09 421
原创 Mysql的安装
MySQL安装配置官网下载地址https://dev.mysql.com/downloads/file/?id=4715032.检测本地是否有mysql已存在的包rpm -qa | grep mysql3.检测本地是否有mariadb已存在的包rpm -qa | grep mariadb4.如果存在,则使用yum命令卸载mariadb-libs-5.5.56-2.el7.x86_64yum -y remove mariadb-libs-5.5.56-2.e...
2020-09-30 08:50:38 103
原创 Hive概要
一,Hive出现的背景:- MapReduce 开发难度大,学习成本高(wordCount => Hello World) - Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理 - 使用MapReduce框架开发,项目周期长,成本高Hive是基于Hadoop的一个数据仓库工具,可以将 结构化的数据文件映射为一张表 (类似于RDBMS中的表),并提供类SQL查询功能;Hive是由Facebook开源,用于解决海量结构化日志的数据统计。Hive本质是:将 SQL 转换为 .
2020-09-30 08:31:03 153
原创 YARN资源调度知识概要
一,Yarn架构ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度; NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令; ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。 Container:对任务运行环境的抽象,封装了CPU、内存等多维
2020-09-29 23:34:18 191
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人