Hadoop体系
文章平均质量分 70
pQ561017_
做一只会抓老鼠的好猫!
展开
-
sqoop安装和使用
下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts为:192.168....转载 2018-03-20 12:25:27 · 432 阅读 · 0 评论 -
Secondary NameNode:它究竟有什么作用?
前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下:Se...转载 2018-08-23 10:49:39 · 227 阅读 · 0 评论 -
Hadoop HDFS负载均衡
Hadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统,提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS副本摆放策略第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太...转载 2018-08-15 10:54:34 · 990 阅读 · 0 评论 -
HDP 2.5相关问题
how to choose which version of spark be used in HDP 2.5?There are two versions of Spark in HDP 2.5, Spark 1.6 and Spark 2.0. I don't know how I can specify the version of Spark to be used. Can anyone ...原创 2018-06-07 15:17:26 · 626 阅读 · 0 评论 -
HBase介绍、搭建、环境、安装部署
1、搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanl...转载 2018-06-06 16:47:16 · 249 阅读 · 0 评论 -
hive命令出现问题
一,问题描述: 登录到hive数据仓库后,输入一些命令,例如(show databases ,show tables),会报出如下错误:Failed with exception Java.io.IOException:java.lang.IllegalArgumentException: java.NET.URISyntaxException: Relati...转载 2018-05-30 18:53:28 · 1565 阅读 · 1 评论 -
Pig安装常见问题
Terminal initialization failed; falling back to unsupportedLogging initialized using configuration in jar:file:/hive/apache-hive-1.1.0-bin/lib/hive-common-1.1.0.jar!/hive-log4j.propertiesSLF4J: Class ...原创 2018-05-28 20:22:49 · 492 阅读 · 0 评论 -
hadoop2.x 常用端口及定义方法
一 常用端口号1 HDFS2 YARN3 HBase4 Hive5 ZooKeeper二 Web UIHTTP服务1 对于存在 Web UIHTTP服务的所有 hadoop daemon 有如下 url2 特定的 Daemon 又有特定的 URL 路径特定相应信息一. 常用端口号Hadoop 集群的各部分一般都会使用到多个端口,有些是 daemon 之间进行交互之用,有些是用于 RPC 访问以及 ...转载 2018-05-28 19:29:05 · 238 阅读 · 0 评论 -
sqoop安装及使用
安装下载地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz 下载 sqoop-1.4.6-cdh5.5.2.tar.gz解压后命名为sqoop-1.4.6修改环境变量: export SQOOP_HOME=/home/xuyao/下载/sqoop-1.4.6 export PATH= $PATH:$SQOOP...转载 2018-05-28 18:38:18 · 223 阅读 · 0 评论 -
elasticsearch优化
常规建议不要一次返回太大量的搜索结果集Elasticsearch设计作为一个搜索引擎,非常擅长返回匹配的查询结果。但是,它并不合适像数据库一样,把整个document作为查询结果返回。如果非要这样做,最好还是使用Scroll这个接口来。避免索引稀疏Elasticsearch是基于Lucene进行索引和存储数据的,最佳的工作方式是密集的数据,即是所有的document拥有相同的字段。特别是启用了no...原创 2018-03-23 13:19:50 · 295 阅读 · 0 评论 -
hadoop2.4.1集群搭建
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的64位的...原创 2018-03-20 12:33:21 · 251 阅读 · 0 评论 -
hadoop2.4.1伪分布式搭建
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> ...原创 2018-03-20 12:31:14 · 147 阅读 · 0 评论 -
hue相关问题
问题一:1、HUE中Hive 查询有问题,页面报错:Could not connect to localhost:10000 或者 Could not connect to bigdatamaster:10000解决方法: 在安装的HIVE中启动hiveserver2 &,因为端口号10000是hiveserver2服务的端口号,否则,Hue Web 控制无法执行HIVE 查询。 ...转载 2018-03-20 12:29:17 · 2507 阅读 · 1 评论 -
mapreduce的原理及执行过程
MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。 MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce执行流程 MapReduce原理 MapReduce的执行步骤:1、Map任务处理 1.1 读...转载 2018-09-06 16:36:51 · 426 阅读 · 0 评论