![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
热情的蘑菇
1.每天进步一丢丢,做个有趣的人
2.种一棵树最好时间是十年前,其次是现在
3.每个人都有一个觉醒期,但觉醒的早晚决定个人的命运
4.只有自己诚心待人,别人才有可能对自己以诚相待
5.普通并不等于庸俗。在许许多多普普通通的事情中,应该表现出不平常的看法和做法来。
展开
-
Hadoop的伪分布式的安装步骤
原创 2018-09-19 11:16:39 · 130 阅读 · 0 评论 -
sqoop增量导入时使用--merge-key报错
脚本内容:export SQOOP_HOME=/home/software/sqoop-1.4.4.bin__hadoop-2.0.4-alphaexport PATH=PATH:PATH:PATH:SQOOP_HOME/binsqoop import –connect jdbc:mysql://192.168.124.130:3306/test –username root –pas...原创 2019-01-28 20:33:09 · 1742 阅读 · 0 评论 -
hadoop最新稳定版本使用建议
hadoop最新稳定版本使用建议 Apache HadoopApache版本衍化比较快,我给大家介绍一下过程ApacheHadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1....转载 2019-01-22 15:47:06 · 10629 阅读 · 0 评论 -
hive的用户和用户权限
HiverServer2支持远程多客户端的并发和认证,支持通过JDBC、Beeline等连接操作。hive默认的Derby数据库,由于是内嵌的文件数据库,只支持一个用户的操作访问,支持多用户需用mysql保存元数据。现在关心的是HiveServer如何基于mysql元数据库管理用户权限,其安全控制体系与Linux及Hadoop的用户是否存在联系。1)remote方式部署HiveHive中...转载 2019-01-07 20:13:18 · 369 阅读 · 0 评论 -
hive中动态表和静态表区别
虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解. 举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_device_open,而且还在不断随着时间增长,那么我需要给它进行分区,为什么要分区?因为我想缩小查询范围,提高速度和性能. 分区其实是物理上对hdfs不同目录进行数据的load操作,0.7之后的版本都会自动创建不存在的hdfs的目录...转载 2019-01-04 12:03:51 · 1656 阅读 · 0 评论 -
Windows下使用Hadoop2.6.0-eclipse-plugin插件
开发十年,就只剩下这套架构体系了!>>> ...转载 2018-12-12 14:06:36 · 313 阅读 · 0 评论 -
Yarn 调度器Scheduler详解
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三...转载 2018-12-12 19:10:05 · 243 阅读 · 1 评论 -
HDFS的API学习
package com.jt;import java.io.ByteArrayInputStream;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;impor...原创 2018-11-16 16:16:42 · 119 阅读 · 0 评论 -
数据仓库中拉链表相关的内容
前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计...转载 2018-11-14 15:49:49 · 259 阅读 · 0 评论 -
利用ZooKeeper搭建Hadoop的HA集群
利用ZooKeeper搭建Hadoop的HA集群 目录Hadoop HA 原理概述为什么会有 hadoop HA 机制呢?那如何解决呢?集群规划集群服务器准备集群安装1、安装 Zookeeper 集群2、安装 hadoop 集群Hadoop HA集群的初始化1、启动ZooKeeper2、在你配置的各个journalnode节点启动该进程3、格式化nam...转载 2018-10-10 17:02:12 · 512 阅读 · 0 评论 -
租约锁机制
背景和介绍缓存是计算机里广泛使用的一种技术,对降低读取延迟、网络流量和服务器负载都非常有效,但也带来了一致性(Consistency)的问题。所谓一致就是客户端总能读到最新的数据,使用缓存后有可能服务器端的数据已经被修改,但客户端仍然从缓存中读取陈旧的数据。为了保证一致性,有两种常见的解决办法,第一种是轮询(Polling),即每...转载 2018-09-19 16:39:07 · 1076 阅读 · 1 评论 -
Hadoop的启动
原创 2018-09-19 11:19:32 · 464 阅读 · 0 评论 -
sqoop从数据库到处数据到hdfs时mapreduce卡住不动解决
在sqoop时从数据库中导出数据时,出现mapreduce卡住的情况经过百度之后好像是要设置yarn里面关于内存和虚拟内存的配置项.我以前没配置这几项,也能正常运行。但是这次好像运行的比较大。出现此故障的原因应该是,在每个Docker分配的内存和CPU资源太少,不能满足Hadoop和Hive运行所需的默认资源需求。 解决方案如下:在yarn-site.xml中加入如下配置:...转载 2019-01-29 20:43:01 · 1125 阅读 · 0 评论