大数居
文章平均质量分 81
xiaoxie_advent
供应链系统及大数据系统规划及建设
展开
-
001_ClickHouse入门
ClickHouse入门本小记学习目标 ClickHouse简介 如何安装ClickHouse 一、ClickHouse简介对ClickHouse的认识:它一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。传统的DBMS是行式的,一行数据代表一个逻辑的实体,常见的行式DBMS有:MySQL、SqlServer、Oracle ……列式数据库系统中,数据是按一列一列的存储的,也可以理解为每一列可以看作为一个逻辑的实体。常见的列式数据库有: Verti...原创 2021-01-04 21:30:04 · 149 阅读 · 0 评论 -
HBase简介(一)
HBase属于列式非关系型娄据库(NoSQL),在介绍HBse则先了解NoSQL。一、关于NoSQL什么是NoSQL?NoSQL(NotOnly SQL),它是一个通用的述语,也就是非关系型数据库,它并不是以sql作为它的主要访问语言。现在有比较多的NoSQL数据库,BerkeleyDB是一个本地NoSQL数据库;HBase是一个分布式数据库(从技术上说它是一个数据存储而不是数据库)NoSQL产生的主要背景随着互联网的发展,传统的关系型数据库在应付超大...原创 2020-05-22 22:06:13 · 2210 阅读 · 0 评论 -
Hive工具介绍(三)
Hive表的相关操作Hive是一个数据仓库,它可以把结构化的数据文件映射为一张数据库表,并且有SQL语言的查询功能。注意:一般来说数据仓库存放的是一些历史数据,它的作用是用来做查询分析,往往不会用来做单条记录的增加、删除、修改Hive表的创建语法与传统的关系型数据库类似,它是它的类型会更加复杂一些,如:它的类型可以是数组、Map……一、创建Hive表如下我们创建一张Hive表。表名:person字段包含:id,name,age,fav,addr数据类型分别为:int,St..原创 2020-05-19 23:39:50 · 619 阅读 · 0 评论 -
Hive工具介绍(二)
Hive的安装及配置一、Mysql安装安装MySQL可以基于yum进行安装 安装mysql数据库 yum install -y mysql-server 对数据库的字符集进行配置 vi /etc/my.cnf 在配置文件的最后加上配置信息指定默认的指符集为utf-8 default-character-set=utf8 启动mysql service mysqld start...原创 2020-05-10 22:23:36 · 405 阅读 · 1 评论 -
Hive工具的介绍(一)
一、Hive是什么要了解Hive是什么得先了解一下数仓(数据仓库)的概念,什么又是数据仓库呢?数据仓库的目的是为了协助输出分析报告,支持决策,为需要业务智能的企业提供业务流程的改进和指导,从而可以节省时间和成本,提高质量。数据仓库与数据库的不同在于,数据库主要是为了很好的解决事务问题,实现对数据的增、删除、改、查,而数据仓库则主要是用来做查询分析的数据库,通常不会做数据的插入、修改、删除。Hive作为数据仓库工具,非常适合做数据的统计分析。它可以把数据文件组成表格并且有完整的类SQL查询原创 2020-05-08 23:26:59 · 1698 阅读 · 0 评论 -
YARN-Hadoop集群资源管理系统
YARN:Yet Another Resource Negotiator,它是在Hadoop2.0版本中出现的。YARN是一个集群资源管理系统,负责集群的统一管理和调度。 类似分布式操作系统 Master/Slave架构 管理CPU及Memory 运行在YARN上的MR类似一个个应用 一、使用YARN解决了什么问题 解决了NameNode的单点...原创 2020-05-07 23:44:28 · 681 阅读 · 0 评论 -
MapReduce分布式离线计算框架学习摘要,时间温度排序(二)
对温度进行排序实例(实例来源于《从零开始学Hadoop大数据分析》)如有下温度数据,根据这些温度信息找出每年每月3个最高温度的年月及温度并按照温度进行降序排列2010-01-01 12:00:2182010-01-02 12:00:21122010-01-03 12:00:21102010-01-04 12:00:2182010-01-05 ...原创 2020-05-05 19:36:16 · 176 阅读 · 0 评论 -
MapReduce分布式离线计算框架学习摘要(一)
一、MapReduce简单概述在Hadoop中有两个核心的模块,一个是大数据量文件的存储HDFS,另一个是能够做快速的数据分析,则为MapReduce。百度百科介绍:二、MapReduce的特点它适合做“离线”(存储在本地)的海量数据计算,通常计算的数据量在PB级别或者ZB级别MapReduce的主要特点如下: 易于编程 扩展性良好 高容错性 ...原创 2020-05-05 00:50:47 · 965 阅读 · 0 评论 -
使用JAVA API调用ZooKeeper
一、环境准备及创建会话实例 JAR包 使用JAVAAPI调用ZooKeeper时必须要导入对应的jar包 对应的jar包:ZooKeeper-3.x.x.jar(其中的x需要依据版本而定。注意:使用3.4.14版本的ZooKeeper时,如何使用3.4.14的jar包,创建连接时需要把session超时时间设置长一点否则会报错,改用3.4.10版本的...原创 2020-05-04 11:16:26 · 807 阅读 · 0 评论 -
Zookeeper基础概念及基本命令简介
关于Zookeeper需要了解的核心概念及常用命令在分布式系统构建的集群中,每台机器都有自己的角色定位,其中最为典型的就是Master/Slave模式Master:提供写操作服务Slave:通过异步复制的机制获取新数据并提供读服务Zookeeper中引入了三种角色:Leader、Follower、ObserverZookeeper通过选举选定一台机器为Leader,这台机器为客...原创 2020-05-03 22:27:32 · 199 阅读 · 0 评论 -
HDFS高可用机制实现
一、怎么理解HDFS高可用HDFS高可用要解决的问题点:NameNode存在单点失效的问题当NameNode失效后,所有的客户端包含MapReduce作业都将无法读写文件,因为NameNode是唯一存储元数据与文件到数据块映射的地方,为了避免这种情况的产生,则需要考虑搭建HDFS高可用集群来实现NameNode的高可用性。HDFS高可用的机制:配置一对活动-备用NameNode,当活...原创 2020-05-03 10:32:01 · 935 阅读 · 0 评论 -
Hadoop 3.x搭建基础HDFS集群
与Hadoop 2.x相比,它有一些新的特性如下: 基于JDK 1.8 HDFS可擦除编码 MR Native Task优化 基于Cgroup的内存隔离和IODisk隔离 更改分配容器资源Container resizing …… Hadoop 3 HDFS的架构HDFS集群架构包含如下:NameNode、DataNode...原创 2020-05-01 00:18:21 · 496 阅读 · 0 评论 -
Hadoop对文件的基本操作方式(shell命令、JAVA API)
Hadoop对文件的基本操作方式:shell命令、JAVAAPI一、Shell中操作HDFS时常用命令 创建目录命令 hdfs dfs -mkdir /user 在根目录下创建user目录 2.上传文件到HDFS hdfs dfs -put hadoop-native-64-2.5.0.tar...原创 2020-04-29 01:26:51 · 915 阅读 · 0 评论 -
Hadoop HDFS常用命令之文件操作
Hadoop中HDFS常用命令_文件操作对文件的操作HDFS命令都在Hadoop的bin目录下,当我们配置好了Hadoop的环境变量后就可以直接输入HDFS的命令了,而不需要转到对应的目录下再执行命令 具体命令 命令说明 hdfs fsck / -files -blocks 列出文件系统中各个文件由哪...原创 2020-04-28 00:10:36 · 627 阅读 · 0 评论 -
Hadoop HDFS简单介绍
一、HDFS相关概念简介关于HDFS百度百科介绍如下:HDFS相关概念及体系简介 HDFS:Hadoop Distributed File System,使用JAVA语言实现的分布式、可横向扩展的文件系统 它包含一个名称节点NameNode和多个数据节点DataNode,属于主/从(Master/Slave)关系结构模型 名称节点,负责管理文件系统命名空...原创 2020-04-26 23:35:14 · 451 阅读 · 0 评论 -
Hadoop集群部署总结(两个节点部署)
关于两个节点的集群部署,可以先参考,单个节点的伪集群部署的总结(https://blog.csdn.net/advent_java/article/details/105773087)一、关于core-site.xml文件<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" ...原创 2020-04-26 21:27:13 · 898 阅读 · 0 评论 -
Hadoop集群部署总结(单机伪集群部署)
一、JAVA环境的安装hadoop环境是一定需要有JAVA环境的,所以有一个关键的前提是安装JAVA环境并且对环境变量进行配置安装JAVA安装命令: rpm -ivh jdk-7u80-linux-x64.rpm对环境变量进行配置 home目录下有一个隐藏文件:.bash_profile export JAVA_HOME=/usr/java/jdk1....原创 2020-04-26 17:20:43 · 527 阅读 · 0 评论