大数据
文章平均质量分 81
maoyg0821
这个作者很懒,什么都没留下…
展开
-
Yarn 调度器Scheduler详解
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三种调度器可以...转载 2018-03-31 12:57:49 · 360 阅读 · 0 评论 -
Sqoop1 详细使用和避坑指南
经过这么几天的折腾,发现 Sqoop1 真的比 Sqoop2 方便好用的多,Sqoop2 坑真是太多了,搞不定。Sqoop1 坑少也稳定,但是零基础使用过程中也是有几点需要注意的。官方下载:Sqoop 官网 官方使用文档 Sqoop-1.4.6安装部署及详细使用介绍 如果像我一样直接用CDH里边自带的话,方便的地方是环境变量什么的不需要我再去配置了,很方便。 要检查...转载 2018-05-05 21:39:06 · 2532 阅读 · 0 评论 -
深入理解HBase的系统架构
HBase的构成RegionsHBase的HMasterZooKeeperHBase各组成部分之间的合作HBase的第一次读写HBase的META tableRegion Server的组成HBase的写操作步骤步骤一步骤二HBase的MemStoreHBase Region FlushHFileHFile的结构HFile的索引HBase的读合并(Read Merge)以及读放大(Read amp...转载 2018-05-02 07:55:13 · 388 阅读 · 0 评论 -
HBase数据模型、概念视图和物理视图
1:数据模型 HBase是一个类似Bigtable的分布式数据库,它是一个稀疏的长期存储的(存储在硬盘上)、多维度的、排序的映射表,这张表的索引是行关键字、列关键字和时间戳,HBase中的数据都是字符串,没有类型。 用户在表格中存储数据,每一行都有一个可排序的主键和任意多的列。由于是稀疏存储,同一张里面的每一行数据都可以有截然不同的列。 列名字的格式是"<family>:&l...转载 2018-04-24 08:04:12 · 4224 阅读 · 1 评论 -
hive静态与动态分区理解
需要建立一个备份带分区的数据表,拷贝时若采用静态分区方式需要写 N 行语句,因此可以使用动态分区,节省大量时间。Hive 的分区方式:由于 Hive 实际是存储在 HDFS 上的抽象,Hive 的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。一)hive 中支持两种类型的分区:静态分区 SP(static partition)动态分区 DP(dynamic partition...转载 2018-04-03 22:20:47 · 7256 阅读 · 0 评论 -
Hive静态分区与动态分区
1. 静态分区若分区的值是确定的,那么称为静态分区。下面举例一个业务场景: 统计程序每天都需要统计1号店中由精准化推荐带来的销售额,日期是确定的,现在需要将每天统计好的销售额数据插入到指定的日期分区中1.1. 实现方式参见如下的脚本:hive -e "--设置Hive Job任务队列set mapred.job.queue.name=pms;--创建精准化销售额数据汇总表create ...转载 2018-04-03 22:18:56 · 256 阅读 · 0 评论 -
Hive分区(静态分区+动态分区)
Hive分区的概念与传统关系型数据库分区不同。传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区。Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。所以可以这样理解,当我们在插入数据的时候指定分区,其实就是新建一个目录或者子目录,或者在原有的目录...转载 2018-04-03 22:16:50 · 185 阅读 · 0 评论 -
使用QJM实现HDFS高可用
背景Hadoop2.0.0之前,NameNode存在单点故障问题,每个集群中只有一个NameNode,一旦机器损坏或者进程出了问题,在问题被修复(重启进程或者机器)之前整个集群都处于不可用的状态。HDFS集群的可用性主要是指在遇到以下两种情况的时候仍然可以对外不间断的提供服务: 1. 不可预测的硬件故障! 2. 有计划的软件升级或维护!HDFS的HA特性通过在同一个集群中同时运行一个Active和...转载 2018-03-27 10:17:35 · 190 阅读 · 0 评论 -
Hadoop Yarn详解
一、Yarn简介Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。在介绍Yarn之前,我们先回头看一下Hadoop1.x对MapReduce job的调度管理方式(可参考:Hadoop核心之MapReduce架构设计),它主要包括两部分功能:1. ResourceManage...转载 2018-03-31 13:08:24 · 398 阅读 · 0 评论 -
Yarn 内存分配管理机制及相关参数配置(yarn性能调优)
一、相关配置情况关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念,现在可以先把它理解为运行map/reduce task的容器,后面有详细介绍。1.1 RM的内存资源配置, 配置的是资源调度相关RM1:yarn.scheduler...转载 2018-03-31 13:01:43 · 9406 阅读 · 1 评论 -
Python语言之MySQL数据库操作mysql-connector
MySQL数据库是使用最广泛的关系型数据库之一,其性能优良,能够承受高并发的访问,非常适合作为Web应用的后台数据库。0x01 安装MySQL访问驱动Python中操作MySQL数据库的适配器主要有两个,一是MySQLdb(即MySQL-Python): 封装了MySQL C驱动的Python驱动器;另一个是mysql-connector:MySQL官方的纯Pyth...转载 2018-06-06 19:31:44 · 753 阅读 · 0 评论