大数据开发_fire-ang的博客-CSDN博客

大数据开发

关注

文章平均质量分 80

Hadoop\Hive\HBase\Sqoop\Spark

关注数：文章数：43 文章阅读量：127718 文章收藏量：57

作者: fire-ang

为明天会更好而努力...

展开

Elasticsearch基础教程

基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。接近实时（NRT） Elasticsearch是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟（通常是1秒）。集群（cluster）一个集群就是由一个

转载 2016-12-26 16:08:31 · 293 阅读 · 0 评论
ElasticSearch 简单入门

简介ElasticSearch是一个开源的分布式搜索引擎，具备高可靠性，支持非常多的企业级搜索用例。像Solr4一样，是基于Lucene构建的。支持时间时间索引和全文检索。官网：http://www.elasticsearch.org它对外提供一系列基于java和http的api，用于索引、检索、修改大多数配置。写这篇博客的的主要原因是ElasticSearch的网站只有一些简单的

转载 2016-12-26 16:06:49 · 254 阅读 · 0 评论
启动hive报错：[ERROR] Terminal initialization failed; falling back to unsupported

[root@slave bin]# ./hive17/02/18 01:04:17 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not existLogging initialized using configuration in file:/home/hadoop/hive-1.2.1/conf/hiv

原创 2017-02-17 17:17:42 · 770 阅读 · 1 评论
sqoop1.4.6报错：ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not l

1、启动sqoop报错：ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver[root@slave bin]# ./sqoop list-databases --connect jdbc:m

原创 2017-02-20 11:22:05 · 17609 阅读 · 2 评论
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

[root@slave hadoop]# cd hive-1.2.1/bin/[root@slave bin]# ./hive17/02/20 19:33:00 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not existLogging initialized using configuration i

原创 2017-02-20 13:05:33 · 10541 阅读 · 2 评论
Missing Hive Execution Jar: /.../hive-exec-*.jar

摘要: 运行hive时显示Missing Hive Execution Jar:/usr/hive/hive-0.11.0/bin/lib/hive-exec-*.jar运行hive时显示Missing Hive Execution Jar:/usr/hive/hive-0.11.0/bin/lib/hive-exec-*.jar细细分析这个目录/bin/lib，在hive安装文件

转载 2017-01-03 17:04:38 · 4172 阅读 · 0 评论
load数据到hive分区表报错： FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTas

在启动hive创建表的时候，兴许你们回碰到这个错误：http://blog.csdn.net/qq_35732963/article/details/54139581；百度一下，说是字符编码的问题，那个好解决，但是下面这个错，却不一样，归根到底是数据库出了问题！1、上传数据到hive表时报错：hive> load data local inpath '/home/hadoop/da

原创 2017-01-09 20:07:12 · 30095 阅读 · 6 评论
hive启动报错：Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be

[root@slave bin]# ./hive17/02/17 23:27:57 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not existLogging initialized using configuration in file:/home/hadoop/hive-1.2.1/conf/hive-

原创 2017-02-17 16:34:34 · 2953 阅读 · 0 评论
Hive函数大全

Hive函数大全一、关系运算：1. 等值比较: = 语法：A=B 操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE 举例： Hive>select 1 from lxw_dual where 1=1; 12. 不等值比较

转载 2017-03-13 11:13:12 · 308 阅读 · 0 评论
Hive group by操作

Hive中常见的高级查询有：group by、Order by、join、distribute by、sort by、cluster by、Union all。今天我们就来谈谈group by操作，group by操作表示按照某些字段的值进行分组，有相同的值放到一起，语法样例如下：[java] view plain copy select col1,col2,c

转载 2017-01-18 18:38:35 · 4280 阅读 · 0 评论
开hive之前得先设置下 hive --service metastore & 才不出错，想问下，这是配置文件的问题还是？

开hive之前得先设置下 hive --service metastore & 才不出错，想问下，这是配置文件的问题还是？--------------------------[root@slave hadoop]# hiveLogging initialized using configuration in jar:file:/home/hadoop/hive-1.2.1

原创 2017-03-01 15:35:10 · 2313 阅读 · 0 评论
hive中UDF和UDAF使用说明（最简单的udf函数）

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Integer/St

转载 2017-02-13 18:49:07 · 1143 阅读 · 0 评论
Hive安装 (hadoop2.6.2 hive 1.2.1)

Hive安装 (hadoop2.6.0 hive 1.2.1)官网地址：http://hive.apache.org/downloads.html三种模式内嵌模式：元数据保持在内嵌的derby模式，只允许一个会话连接本地独立模式：在本地安装Mysql，吧元数据放到mySql内远程模式：元数据放置在远程的Mysql数据库1、内嵌模式：

转载 2017-02-17 11:33:39 · 1738 阅读 · 0 评论
Hive高级查询(group by、 order by、 join等)

查询操作group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all1212底层的实现 mapreduce常见的聚合操作count计数count(*) 所有值不全为NULL时，加1操作count(1) 不管有没有值，只要有这条记录，值就加1count(col) col列里面

转载 2017-01-11 19:05:37 · 393 阅读 · 0 评论
hive创建表失败：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

前言：本文是在博主：http://blog.sina.com.cn/s/blog_7673d4a50102v7s1.html；博客基础上对遇到的问题的一个总结把hive 的metadata配置成mysql,在mysql数据库里创建了hivedb后,修改hive的conf目录下的hive-site.xml并且把 mysql-connector-java-5.1.22-bin.

原创 2017-01-06 16:37:56 · 23394 阅读 · 2 评论
CentOS6.5下安装Hive2.0.0详解及其报错解决办法

部分摘抄来源于：http://www.centoscn.com/image-text/install/2016/0504/7167.html本文环境如下：操作系统：CentOS6.5 64位 Hive版本：2.0.0 JDK版本：1.8.0 64位 Hadoop版本：2.6.21. 所需要的环境Hive 2.0需要以下运行环境： Java 1.7以

原创 2017-01-04 18:32:18 · 1014 阅读 · 0 评论
详解HBase架构原理

一、什么是HBase　 HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用Hbase技术可在廉价PC Server上搭建大规模结构化存储集群。　HBase 是Google Bigtable 的开源实现，与Google Bigtable 利用GFS作为其文件存储系统类似， HBase 利用Hadoop HDFS 作为其文件存储系统；Google 运行

转载 2017-12-26 14:04:05 · 909 阅读 · 0 评论
HBase盲点扫描：集群搭建及hbaseshell使用

标签（空格分隔）： hbase 大数据（Hadoop）数据库 HBase功能、表的设计、环境配置与 Shell基本使用练习，最好与 RDBMS数据中的库和表进行对比，以下几点要注意： 1）企业中海量数据存储和实时查询的需求 2） HBase功能，与 RDBMS相比，优势在哪 3） HBase服务组件的说明、配置部署启动 4） HBase Shell中基本命令的使用

转载 2017-12-22 17:34:44 · 297 阅读 · 0 评论
HBase + DDL + DML

禁用表：disable '表名' 启用表：enable '表名' Group name: replication Commands: add_peer, disable_peer,enable_peer, remove_peer, start_replication, stop_replication-----------------------------------

转载 2017-04-20 18:40:15 · 341 阅读 · 0 评论
14. hbase 更改表名

14. hbase 更改表名1.停止表继续插入hbase shell>disable 'tableName'hbase(main):089:0> disable 'member'2。制作快照hbase shell> snapshot 'tableName', 'tableSnapshot'hbase(main):090:0> snapshot 'member','table

原创 2017-05-09 17:14:55 · 567 阅读 · 0 评论
hive集成管理Hbase表

本文借鉴了他人博客，此文看了更加简明明了本文主要实现一下目标： 1. 在hive中创建的表能直接创建保存到hbase中。 2. hive中的表插入数据，插入的数据会同步更新到hbase对应的表中。 3. hbase对应的列簇值变更，也会在Hive中对应的表中变更。 4. 实现了多列，多列簇的转化：（示例：hive中3列对应hbase中2列簇）++++++++

原创 2017-05-24 15:39:49 · 857 阅读 · 1 评论
执行start-dfs.sh后，datenode没有启动

查看日志如下：　　2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool (Datanode Uuid unassigned) service to localhost/127.0.0.1:900

转载 2016-12-27 11:29:24 · 1123 阅读 · 0 评论
hive安装配置及遇到的问题解决

１．下载Hive安装包apache-hive-1.2.1-bin.tar.gz2.解压安装包，并移动到要安装的路径下sudo tar -zxvf apache-hive-1.2.1-bin.tar.gzsudo mv -r hive1.2.1 /usr/local/３.配置hive环境变量 vi /etc/profile 添加环境变量值 export HIVE_HOM

转载 2017-01-03 16:08:10 · 3019 阅读 · 0 评论
Unable to load native-hadoop library for your platform... using builtin-java classes where applicabl

[hadoop@masterBF hadoop-2.5.0]$ bin/hdfs dfs -ls /17/02/27 21:36:37 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

原创 2017-02-27 22:08:03 · 1123 阅读 · 0 评论
详述执行map reduce 程序的步骤（本地执行MR、服务器上执行MR）

MR程序的执行环境有两种：本地测试环境、服务器环境。 1、本地环境执行MR程序的步骤：（1）在windows下配置Hadoop的环境变量（2）拷贝debug工具(winutils)到HADOOP_HOME/bin （3）从源码中拷贝org.apache.hadoop.io.nativeio.NativeIO.Java到我们的mr的src目录下

转载 2016-11-26 22:13:10 · 1089 阅读 · 0 评论
HDFS中高可用性HA的讲解

HDFS Using QJM　　HA使用的是分布式的日志管理方式一：概述1.背景　　如果namenode出现问题，整个HDFS集群将不能使用。　　是不是可以有两个namenode呢　　　　一个为对外服务->active　　　　一个处于待机->standby　　　　他们的之间共享的元数据交 nameservice 2.HDFS HA的几大中重点　　1）保证

转载 2016-11-26 23:12:37 · 1235 阅读 · 0 评论
Hadoop HA的理解

版权声明：本文为博主原创文章，未经博主允许不得转载。最近在自学Hadoop，看了很多网上的博客，很多人都提到了HA，但是具体的HA是怎么一回事，他指的是什么，我们为什么要考虑这个呢?下面我就谈谈我个人对HA的理解。 HA（High Available）就是高可用性，我们学习分布式集群框架，经常的会考虑这个问题，那么Hadoop也是不可避免的，而Hadoop的HA具体是什么引起的

转载 2016-11-26 22:27:07 · 317 阅读 · 0 评论
linux下tar gz bz2 tgz z等众多压缩文件的压缩与解压方法

Linux下最常用的打包程序就是tar了，使用tar程序打出来的包我们常称为tar包，tar包文件的命令通常都是以.tar结尾的。生成tar包后，就可以用其它的程序来进行压缩了，所以首先就来讲讲tar命令的基本用法：　　tar命令的选项有很多(用man tar可以查看到)，但常用的就那么几个选项，下面来举例说明一下：　　# tar -cf all.tar *.jpg

转载 2016-12-27 11:47:06 · 584 阅读 · 0 评论
CentOS6.5下>>hadoop2.6.2版本的>>Mysql数据库的安装与配置

一、mysql简介说到数据库，我们大多想到的是关系型数据库，比如mysql、oracle、sqlserver等等，这些数据库软件在windows上安装都非常的方便，在Linux上如果要安装数据库，咱不得不首先推荐的是mysql数据库了，而且Mysql数据库的第一个版本就是发行在Linux系统上的。MySQL是一个关系型数据库管理系统，由瑞典MySQL AB公司开发，目前属于Oracle公司

转载 2017-02-08 16:27:52 · 792 阅读 · 0 评论
Kafka+Storm+HDFS整合实践

在基于Hadoop平台的很多应用场景中，我们需要对数据进行离线和实时分析，离线分析可以很容易地借助于Hive来实现统计分析，但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm，它是一个实时处理系统，它为实时处理类应用提供了一个计算模型，可以很容易地进行编程处理。为了统一离线和实时计算，一般情况下，我们都希望将离线和实时计算的数据源的集合统一起来作为输入，然后将数据的流向分别经由实

转载 2016-11-24 10:47:38 · 258 阅读 · 0 评论
Hadoop集群（第6期）_WordCount运行详解

1、MapReduce理论简介 1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是JobTracker；

转载 2016-11-24 10:55:00 · 263 阅读 · 0 评论
hive内部表与外部表区别详细介绍

问题导读：1.创建内部表与外部表的区别是什么？2.external关键字的作用是什么？3.外部表与内部表的区别是什么？4.删除表的时候，内部表与外部表有什么区别？5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的？6.磁盘，hdfs,hive表他们之间的过程是什么样子的？

转载 2016-11-26 22:30:13 · 293 阅读 · 0 评论
Hadoop 入门2、简要介绍Hadoop的各个主要模块(概念层次)

Hadoop 入门二、简要介绍Hadoop的各个主要模块(概念层次)先从概念层次介绍下Hadoop的各个组件，下一部分会深入Hadoop的每个组件，并从实战层次讲解。一、Hadoop构造模块运行Hadoop的意思其实就是运行一组守护进程（daemons），每个进程都有各自的角色，有的仅运行在单个服务器上，有的则运行在集群多个服务器上，它们包括：NameNodeSe

转载 2016-11-26 21:59:34 · 5979 阅读 · 0 评论
storm集群基础+部署

Storm集群部署1前期准备工作： 1、打开虚拟机ifconfig查看ip [root@master Desktop]# ifconfig eth0 Link encap:Ethernet HWaddr 00:0C:29:14:38:86 inet addr:192.168.110.128 Bcast:192.168.110.255 Mask:255.255.255.0

原创 2016-11-03 22:55:46 · 334 阅读 · 1 评论
Mapreduce中Combiner的使用及误区

问题提出：众所周知，Hadoop框架使用Mapper将数据处理成一个键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：（引用）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这

转载 2016-11-26 23:08:55 · 430 阅读 · 0 评论
Zookeeper-Zookeeper可以干什么

在Zookeeper的官网上有这么一句话：ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. 这大概描述了Zookeeper主要可以干哪些

转载 2016-11-24 10:59:47 · 256 阅读 · 0 评论
分布式计算框架MapReduce

原文：https://www.cnblogs.com/wangweiNB/p/5723614.html分布式计算框架MapReduce一、mr介绍1、MapReduce设计理念是移动计算而不是移动数据,就是把分析计算的程序,分别拷贝一份到不同的机器上,而不是移动数据.2、计算框架有很多,不是谁替换谁的问题,是谁更适合的问题.mr离线计算框架适合离线计算;storm流式计算框架适合实时计算;sp...

转载 2018-03-14 17:19:39 · 822 阅读 · 0 评论
MapReduce计数器

1、MapReduce计数器是什么？计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器，记录数据或者进度的变化情况。2、MapReduce计数器能做什么？ MapReduce 计数器（Counter）为我们提供一个窗口，用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助，MapRedu

转载 2016-11-26 23:14:38 · 379 阅读 · 0 评论
hadoop笔记1-MR执行过程

MR执行过程包括Map、Shuffler、Reduce，其中Map、Reduce及Shuffler中的分区、合并、排序是可以允许程序员编程参与的。1、Map阶段。split-----map----partition sort and spill to disk------combine。1）split的目的是应一个原始文件分成多个文件，分别交由不同的map节点处理，文件块大小由bl

转载 2016-11-26 23:13:42 · 607 阅读 · 0 评论
Map阶段分析之Spill阶段

标签：如上次分析，其实map函数中的context.write()调用过程如下所示：梳理下调用过程，context的write方法其实是调用了TaskInputOutputContext类的write方法，而在这个write方法内部又调用了output字段的write方法，这个output字段是NewOutputCollector类的一个对象，自然就回到了NewOutp

转载 2016-11-26 23:11:33 · 1791 阅读 · 0 评论

大数据开发

作者: fire-ang

Elasticsearch基础教程

ElasticSearch 简单入门

启动hive报错：[ERROR] Terminal initialization failed; falling back to unsupported

sqoop1.4.6报错：ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not l

Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

Missing Hive Execution Jar: /.../hive-exec-*.jar

load数据到hive分区表报错： FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTas

hive启动报错：Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be

Hive函数大全

Hive group by操作

开hive之前得先设置下 hive --service metastore & 才不出错，想问下，这是配置文件的问题还是？

hive中UDF和UDAF使用说明（最简单的udf函数）

Hive安装 (hadoop2.6.2 hive 1.2.1)

Hive高级查询(group by、 order by、 join等)

hive创建表失败：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

CentOS6.5下安装Hive2.0.0详解及其报错解决办法

详解HBase架构原理

HBase盲点扫描：集群搭建及hbaseshell使用

HBase + DDL + DML

14. hbase 更改表名

hive集成管理Hbase表

执行start-dfs.sh后，datenode没有启动

hive安装配置及遇到的问题解决

Unable to load native-hadoop library for your platform... using builtin-java classes where applicabl

详述执行map reduce 程序的步骤（本地执行MR、服务器上执行MR）

HDFS中高可用性HA的讲解

Hadoop HA的理解

linux下tar gz bz2 tgz z等众多压缩文件的压缩与解压方法

CentOS6.5下>>hadoop2.6.2版本的>>Mysql数据库的安装与配置

Kafka+Storm+HDFS整合实践

Hadoop集群（第6期）_WordCount运行详解

hive内部表与外部表区别详细介绍

Hadoop 入门2、简要介绍Hadoop的各个主要模块(概念层次)

storm集群基础+部署

Mapreduce中Combiner的使用及误区

Zookeeper-Zookeeper可以干什么

分布式计算框架MapReduce

MapReduce计数器

hadoop笔记1-MR执行过程

Map阶段分析之Spill阶段