大数据开发
文章平均质量分 80
Hadoop\Hive\HBase\Sqoop\Spark
fire-ang
为明天会更好而努力...
展开
-
Elasticsearch基础教程
基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) 一个集群就是由一个转载 2016-12-26 16:08:31 · 284 阅读 · 0 评论 -
ElasticSearch 简单入门
简介ElasticSearch是一个开源的分布式搜索引擎,具备高可靠性,支持非常多的企业级搜索用例。像Solr4一样,是基于Lucene构建的。支持时间时间索引和全文检索。官网:http://www.elasticsearch.org它对外提供一系列基于java和http的api,用于索引、检索、修改大多数配置。写这篇博客的的主要原因是ElasticSearch的网站只有一些简单的转载 2016-12-26 16:06:49 · 247 阅读 · 0 评论 -
启动hive报错:[ERROR] Terminal initialization failed; falling back to unsupported
[root@slave bin]# ./hive17/02/18 01:04:17 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not existLogging initialized using configuration in file:/home/hadoop/hive-1.2.1/conf/hiv原创 2017-02-17 17:17:42 · 760 阅读 · 1 评论 -
sqoop1.4.6报错:ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not l
1、启动sqoop报错:ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver[root@slave bin]# ./sqoop list-databases --connect jdbc:m原创 2017-02-20 11:22:05 · 17143 阅读 · 2 评论 -
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
[root@slave hadoop]# cd hive-1.2.1/bin/[root@slave bin]# ./hive17/02/20 19:33:00 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not existLogging initialized using configuration i原创 2017-02-20 13:05:33 · 10519 阅读 · 2 评论 -
Missing Hive Execution Jar: /.../hive-exec-*.jar
摘要: 运行hive时显示Missing Hive Execution Jar:/usr/hive/hive-0.11.0/bin/lib/hive-exec-*.jar运行hive时显示Missing Hive Execution Jar:/usr/hive/hive-0.11.0/bin/lib/hive-exec-*.jar细细分析这个目录/bin/lib,在hive安装文件转载 2017-01-03 17:04:38 · 4069 阅读 · 0 评论 -
load数据到hive分区表报错: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTas
在启动hive创建表的时候,兴许你们回碰到这个错误:http://blog.csdn.net/qq_35732963/article/details/54139581;百度一下,说是字符编码的问题,那个好解决,但是下面这个错,却不一样,归根到底是数据库出了问题!1、上传数据到hive表时报错:hive> load data local inpath '/home/hadoop/da原创 2017-01-09 20:07:12 · 30009 阅读 · 6 评论 -
hive启动报错:Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be
[root@slave bin]# ./hive17/02/17 23:27:57 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not existLogging initialized using configuration in file:/home/hadoop/hive-1.2.1/conf/hive-原创 2017-02-17 16:34:34 · 2916 阅读 · 0 评论 -
Hive函数大全
Hive函数大全一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: Hive>select 1 from lxw_dual where 1=1; 12. 不等值比较转载 2017-03-13 11:13:12 · 290 阅读 · 0 评论 -
Hive group by操作
Hive中常见的高级查询有:group by、Order by、join、distribute by、sort by、cluster by、Union all。今天我们就来谈谈group by操作,group by操作表示按照某些字段的值进行分组,有相同的值放到一起,语法样例如下:[java] view plain copy select col1,col2,c转载 2017-01-18 18:38:35 · 4263 阅读 · 0 评论 -
开hive之前得先设置下 hive --service metastore & 才不出错,想问下,这是配置文件的问题还是?
开hive之前得先设置下 hive --service metastore & 才不出错,想问下,这是配置文件的问题还是?--------------------------[root@slave hadoop]# hiveLogging initialized using configuration in jar:file:/home/hadoop/hive-1.2.1原创 2017-03-01 15:35:10 · 2292 阅读 · 0 评论 -
hive中UDF和UDAF使用说明(最简单的udf函数)
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/St转载 2017-02-13 18:49:07 · 1122 阅读 · 0 评论 -
Hive安装 (hadoop2.6.2 hive 1.2.1)
Hive安装 (hadoop2.6.0 hive 1.2.1)官网地址:http://hive.apache.org/downloads.html三种模式内嵌模式:元数据保持在内嵌的derby模式,只允许一个会话连接本地独立模式:在本地安装Mysql,吧元数据放到mySql内远程模式:元数据放置在远程的Mysql数据库1、内嵌模式:转载 2017-02-17 11:33:39 · 1719 阅读 · 0 评论 -
Hive高级查询(group by、 order by、 join等)
查询操作group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all1212底层的实现 mapreduce常见的聚合操作count计数count(*) 所有值不全为NULL时,加1操作count(1) 不管有没有值,只要有这条记录,值就加1count(col) col列里面转载 2017-01-11 19:05:37 · 388 阅读 · 0 评论 -
hive创建表失败:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
前言:本文是在博主:http://blog.sina.com.cn/s/blog_7673d4a50102v7s1.html;博客基础上对遇到的问题的一个总结把hive 的metadata配置成mysql,在mysql数据库里创建了hivedb后,修改hive的conf目录下的hive-site.xml并且把 mysql-connector-java-5.1.22-bin.原创 2017-01-06 16:37:56 · 23120 阅读 · 2 评论 -
CentOS6.5下安装Hive2.0.0详解及其报错解决办法
部分摘抄来源于:http://www.centoscn.com/image-text/install/2016/0504/7167.html本文环境如下: 操作系统:CentOS6.5 64位 Hive版本:2.0.0 JDK版本:1.8.0 64位 Hadoop版本:2.6.21. 所需要的环境Hive 2.0需要以下运行环境: Java 1.7以原创 2017-01-04 18:32:18 · 997 阅读 · 0 评论 -
详解HBase架构原理
一、什么是HBase HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行转载 2017-12-26 14:04:05 · 896 阅读 · 0 评论 -
HBase盲点扫描:集群搭建及hbaseshell使用
标签(空格分隔): hbase 大数据 (Hadoop)数据库 HBase功能 、表的设计 、环境配置与 Shell基本使用练习,最好与 RDBMS数据中的库和表进行对比 ,以下几点要注意 : 1) 企业中海量数据存储和实时查询的需求 2) HBase功能 ,与 RDBMS相比,优势在哪 3) HBase服务组件的说明、配置部署启动 4) HBase Shell中基本命令的使用转载 2017-12-22 17:34:44 · 291 阅读 · 0 评论 -
HBase + DDL + DML
禁用表:disable '表名' 启用表:enable '表名' Group name: replication Commands: add_peer, disable_peer,enable_peer, remove_peer, start_replication, stop_replication-----------------------------------转载 2017-04-20 18:40:15 · 331 阅读 · 0 评论 -
14. hbase 更改表名
14. hbase 更改表名1.停止表继续插入hbase shell>disable 'tableName'hbase(main):089:0> disable 'member'2。制作快照hbase shell> snapshot 'tableName', 'tableSnapshot'hbase(main):090:0> snapshot 'member','table原创 2017-05-09 17:14:55 · 558 阅读 · 0 评论 -
hive集成管理Hbase表
本文借鉴了他人博客,此文看了更加简明明了本文主要实现一下目标: 1. 在hive中创建的表能直接创建保存到hbase中。 2. hive中的表插入数据,插入的数据会同步更新到hbase对应的表中。 3. hbase对应的列簇值变更,也会在Hive中对应的表中变更。 4. 实现了多列,多列簇的转化:(示例:hive中3列对应hbase中2列簇)++++++++原创 2017-05-24 15:39:49 · 839 阅读 · 1 评论 -
执行start-dfs.sh后,datenode没有启动
查看日志如下: 2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool (Datanode Uuid unassigned) service to localhost/127.0.0.1:900转载 2016-12-27 11:29:24 · 1115 阅读 · 0 评论 -
hive安装配置及遇到的问题解决
1.下载Hive安装包apache-hive-1.2.1-bin.tar.gz2.解压安装包,并移动到要安装的路径下sudo tar -zxvf apache-hive-1.2.1-bin.tar.gzsudo mv -r hive1.2.1 /usr/local/3.配置hive环境变量 vi /etc/profile 添加环境变量值 export HIVE_HOM转载 2017-01-03 16:08:10 · 2956 阅读 · 0 评论 -
Unable to load native-hadoop library for your platform... using builtin-java classes where applicabl
[hadoop@masterBF hadoop-2.5.0]$ bin/hdfs dfs -ls /17/02/27 21:36:37 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable原创 2017-02-27 22:08:03 · 1113 阅读 · 0 评论 -
详述执行map reduce 程序的步骤(本地执行MR、服务器上执行MR)
MR程序的执行环境有两种:本地测试环境、服务器环境。 1、本地环境执行MR程序的步骤: (1)在windows下配置Hadoop的环境变量 (2)拷贝debug工具(winutils)到HADOOP_HOME/bin (3)从源码中拷贝org.apache.hadoop.io.nativeio.NativeIO.Java到我们的mr的src目录下转载 2016-11-26 22:13:10 · 1080 阅读 · 0 评论 -
HDFS中高可用性HA的讲解
HDFS Using QJM HA使用的是分布式的日志管理方式一:概述1.背景 如果namenode出现问题,整个HDFS集群将不能使用。 是不是可以有两个namenode呢 一个为对外服务->active 一个处于待机->standby 他们的之间共享的元数据交 nameservice 2.HDFS HA的几大中重点 1)保证转载 2016-11-26 23:12:37 · 1216 阅读 · 0 评论 -
Hadoop HA的理解
版权声明:本文为博主原创文章,未经博主允许不得转载。最近在自学Hadoop,看了很多网上的博客,很多人都提到了HA,但是具体的HA是怎么一回事,他指的是什么,我们为什么要考虑这个呢?下面我就谈谈我个人对HA的理解。 HA(High Available)就是高可用性,我们学习分布式集群框架,经常的会考虑这个问题,那么Hadoop也是不可避免的,而Hadoop的HA具体是什么引起的转载 2016-11-26 22:27:07 · 310 阅读 · 0 评论 -
linux下tar gz bz2 tgz z等众多压缩文件的压缩与解压方法
Linux下最常用的打包程序就是tar了,使用tar程序打出来的包我们常称为tar包,tar包文件的命令通常都是以.tar结尾的。生成tar包后,就可以用其它的程序来进行压缩了,所以首先就来讲讲tar命令的基本用法: tar命令的选项有很多(用man tar可以查看到),但常用的就那么几个选项,下面 来举例说明一下: # tar -cf all.tar *.jpg转载 2016-12-27 11:47:06 · 565 阅读 · 0 评论 -
CentOS6.5下>>hadoop2.6.2版本的>>Mysql数据库的安装与配置
一、mysql简介说到数据库,我们大多想到的是关系型数据库,比如mysql、oracle、sqlserver等等,这些数据库软件在windows上安装都非常的方便,在Linux上如果要安装数据库,咱不得不首先推荐的是mysql数据库了,而且Mysql数据库的第一个版本就是发行在Linux系统上的。MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle公司转载 2017-02-08 16:27:52 · 788 阅读 · 0 评论 -
Kafka+Storm+HDFS整合实践
在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它为实时处理类应用提供了一个计算模型,可以很容易地进行编程处理。为了统一离线和实时计算,一般情况下,我们都希望将离线和实时计算的数据源的集合统一起来作为输入,然后将数据的流向分别经由实转载 2016-11-24 10:47:38 · 248 阅读 · 0 评论 -
Hadoop集群(第6期)_WordCount运行详解
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;转载 2016-11-24 10:55:00 · 257 阅读 · 0 评论 -
hive内部表与外部表区别详细介绍
问题导读:1.创建内部表与外部表的区别是什么?2.external关键字的作用是什么?3.外部表与内部表的区别是什么?4.删除表的时候,内部表与外部表有什么区别?5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的?6.磁盘,hdfs,hive表他们之间的过程是什么样子的?转载 2016-11-26 22:30:13 · 280 阅读 · 0 评论 -
Hadoop 入门2、简要介绍Hadoop的各个主要模块(概念层次)
Hadoop 入门二、简要介绍Hadoop的各个主要模块(概念层次)先从概念层次介绍下Hadoop的各个组件,下一部分会深入Hadoop的每个组件,并从实战层次讲解。一、Hadoop构造模块 运行Hadoop的意思其实就是运行一组守护进程(daemons),每个进程都有各自的角色,有的仅运行在单个服务器上,有的则运行在集群多个服务器上,它们包括:NameNodeSe转载 2016-11-26 21:59:34 · 5956 阅读 · 0 评论 -
storm集群基础+部署
Storm集群部署1前期准备工作: 1、打开虚拟机ifconfig查看ip [root@master Desktop]# ifconfig eth0 Link encap:Ethernet HWaddr 00:0C:29:14:38:86 inet addr:192.168.110.128 Bcast:192.168.110.255 Mask:255.255.255.0原创 2016-11-03 22:55:46 · 325 阅读 · 1 评论 -
Mapreduce中Combiner的使用及误区
问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:(引用)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这转载 2016-11-26 23:08:55 · 419 阅读 · 0 评论 -
Zookeeper-Zookeeper可以干什么
在Zookeeper的官网上有这么一句话:ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. 这大概描述了Zookeeper主要可以干哪些转载 2016-11-24 10:59:47 · 250 阅读 · 0 评论 -
分布式计算框架MapReduce
原文:https://www.cnblogs.com/wangweiNB/p/5723614.html分布式计算框架MapReduce一、mr介绍1、MapReduce设计理念是移动计算而不是移动数据,就是把分析计算的程序,分别拷贝一份到不同的机器上,而不是移动数据.2、计算框架有很多,不是谁替换谁的问题,是谁更适合的问题.mr离线计算框架 适合离线计算;storm流式计算框架 适合实时计算;sp...转载 2018-03-14 17:19:39 · 801 阅读 · 0 评论 -
MapReduce计数器
1、MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。2、MapReduce计数器能做什么? MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,MapRedu转载 2016-11-26 23:14:38 · 371 阅读 · 0 评论 -
hadoop笔记1-MR执行过程
MR执行过程包括Map、Shuffler、Reduce,其中Map、Reduce及Shuffler中的分区、合并、排序是可以允许程序员编程参与的。1、Map阶段。split-----map----partition sort and spill to disk------combine。1)split的目的是应一个原始文件分成多个文件,分别交由不同的map节点处理,文件块大小由bl转载 2016-11-26 23:13:42 · 599 阅读 · 0 评论 -
Map阶段分析之Spill阶段
标签: 如上次分析,其实map函数中的context.write()调用过程如下所示: 梳理下调用过程,context的write方法其实是调用了TaskInputOutputContext类的write方法,而在这个write方法内部又调用了output字段的write方法,这个output字段是NewOutputCollector类的一个对象,自然就回到了NewOutp转载 2016-11-26 23:11:33 · 1770 阅读 · 0 评论