答案798-CSDN博客

原创 Hadoop之HDFS

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。...

2019-01-23 22:54:05 419

原创 Hadoop简介及安装

简介Hadoop是Apache的顶级项目，是一个可靠的、可扩展的、分布式计算的开源项目。创始人：Doug Cutting 和MikeHadoop起源： 2004年Doug Cutting和Mike Cafarella在设计搜索引擎Nutch的时候，利用通用爬虫爬取了互联网上的数据，获取了大概10亿个网页数据，因为互联网的数据大多数是非结构化的，就意味着这些数据无法存储到数据库中。为了解...

2019-01-21 17:26:27 456

Zookeeper的投票和选举的底层是基于了ZAB协议来实现的。ZAB协议是在2PC算法以及Paxos的基础上进行的设计和延伸。2PC2PC是Two-Phase Commit的缩写，即二阶段提交，是计算机网络尤其是在数据库领域内，为了使基于分布式系统架构下的所有节点在进行事务处理过程中能够保持原子性和一致性而设计的一种算法。通常，二阶段提交协议也被认为是一种一致性协议，用来保证分布式系统数据...

2019-01-12 08:12:27 224

原创 zookeeper随笔

zookeeper 概述ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services.以上是摘自zookeeper管网对zookeeper的介绍：Z...

2019-01-11 20:05:11 154

转载一个不错的shell 脚本教程入门级（转自脚本之家）

一个很不错的bash脚本编写教程，至少没接触过BASH的也能看懂建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言...

2019-01-10 21:34:59 177

原创 GC回收算法简介

概述说起垃圾收集（Garbage Collection, GC），大部分人都把这项技术当做Java语言的伴生产物。事实上，GC的历史比Java久远，1960年诞生于MIT的Lisp是第一门真正使用内存动态分配和垃圾收集技术的语言。当Lisp还在胚胎时期时，人们就在思考GC需要完成的3件事情：1）哪些内存数据需要回收？2）什么时候回收？3）如何回收？经过半个多世纪的发展，目前内存的动态分配...

2018-12-27 09:05:17 165

原创 HBASE优化

硬件和操作系统调优1）配置内存HBase对于内存的消耗是非常大的，主要是其LSM树状结构、缓存机制和日志记录机制决定的，所以物理内存当然是越大越好，并且现在内存的价格已经降到可以批量配置的程度，例如一条三星DDR3、DDR4的16GB内存，价格大约在1000元左右。在互联网领域，服务器内存方面的主流配置已经是64GB，所以一定要根据实际的需求和预算配备服务器内存。如果资源很紧张，推荐内存最小在...

2018-12-26 19:58:42 420

原创 HBASE表设计细节

首先我们来看下HBase表特点特点1：每行数据都必须指定一个行键，而且行键是唯一的，HBase本质上是一种Key Value结构存储系统。特点2：HBase的列族数量在建表时固定，但是列可以后续增加。特点3：HBase表可以设计的很稀疏，如果某个Cell没有数据，不会浪费磁盘空间。特点4：HBase表按行键做排序，按字典序排序。Rowkey设计Rowkey是不可分割的字节数，按字典排...

2018-12-26 16:02:35 1512 2

原创 HBASE介绍

HBASE介绍HBase是Apache下Hadoop项目的子项目，该技术来源于 Fay Chang 所写的Google论文《Bigtable》。HBase是一个分布式、面向列存储（Column-Based）的开源数据库，可以存储海量数据（基于Hadoop的HDFS），具有低延迟的数据查询能力（秒级甚至毫秒级），属于NoSQL型数据库，即非关系型数据库。（mysql，oracle都是面向行存储）...

2018-12-26 13:32:34 513

原创 flume介绍

概述Flume最早是Cloudera提供的日志收集系统，后贡献给Apache，所以目前是Apache下的项目。Flume是一个高可用的、高可靠的鲁棒性（robust 健壮性）、分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据(source);同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力(sink)。当前Flu...

2018-12-21 20:17:35 331

原创 Hive的特点、体系结构及工作流程

Hive体系结构图用户接口主要有三个：CLI，JDBC 和 WUI1.CLI，最常用的模式。实际上在hive 命令行下操作时，就是利用CLI用户接口。2.JDBC，通过java代码操作，需要启动hiveserver，然后连接操作。MetastoreHive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等）...

2018-12-21 18:55:44 658

原创 Sqoop安装及指令

Sqoop 简介Sqoop是Apache提供用于HDFS和关系型数据库之间数据的导入和导出的工具，可以从HDFS导出数据到关系型数制库中，也可以从关系型数据库导入数据到HDFS。安装步骤1.准备sqoop安装包，官网地址：http://sqoop.apache.org2.配置jdk环境变量和Hadoop的环境变量。因为sqoop在使用是会去找环境变量对应的路径，从而完整工作。（在此就...

2018-12-20 16:59:10 138

原创 Hive解决数据倾斜问题及Hive优化

数据倾斜概述简单来说数据倾斜就是数据的key的分化严重不均，造成一部分数据很多，一部分数据很少的情况。举个word count的入门例子，在map阶段形成了（’“hello”,1）的形式，然后在reduce阶段进行value统计，算出&amp;amp;amp;amp;quot;hello&amp;amp;amp;amp;quot;出现的次数，假设word count的文本大小是100G，其中70G都是&amp;amp;amp;amp;quot;hello&a

2018-12-20 15:09:30 1221

原创 Hive介绍及基本操作

Hive 介绍及基本操作Hive概述Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，它提供了一系列的工具，可以用来进行数据提取、转化、加载，简称ETL（Extract Transform Load）,也可以叫做数据清洗。是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制，Hive定义了简单的类似sql查询语言，称为HiveQL。Hive 并非为联机...

2018-12-19 22:23:26 716 1

weixin_43519014的博客