![](https://img-blog.csdnimg.cn/8fa914a70eaf4f2395c5a2fcb09acd5e.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 93
让小白很快入门大数据,熟练掌握大数据开发
Java海洋
从事JAVA 开发,大数据开发10多年,目前在一家互联网公司做技术负责人
展开
-
Hive的文件格式比较
Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个row group,在row group中对每个列分别进行存储。另:Hive能支持自定义格式,详情见:Hive文件存储格式基于HDFS的行存储具备快速数据加载和动态负载的高适应能力,原创 2015-12-10 18:13:56 · 2367 阅读 · 1 评论 -
Hive总结(六)hive入门经典
转自:http://www.zypx.cn/technology/20100606132430320046.htmlHive 是什么在接触一个新的事物首先要回到的问题是:这是什么?这里引用 Hive wiki 上的介绍:Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools转载 2014-10-27 18:14:38 · 6613 阅读 · 2 评论 -
Flume传数据到Hadoop双namenode集群传数据可能出现的问题
现在的需求是在一台Flume采集机器上,往Hadoop集群上写HDFS,该机器没有安装Hadoop。这里的Flume版本是1.6.0,Hadoop版本是2.7.1.把Hadoop集群的hdfs-site.xml、core-site.xml两个配置文件复制到 flume安装目录的conf目录去,把hadoop-hdfs-2.7.1.jar复制到 Flume lib目录。一、原创 2016-11-18 10:31:24 · 2600 阅读 · 1 评论 -
Hive命令的3种调用方式
方式1:hive –f /root/shell/hive-script.sql(适合多语句)hive-script.sql类似于script一样,直接写查询命令就行例如:[root@cloud4 shell]# vi hive_script3.sqlselect * from t1;select count(*) from t1;不进入交互原创 2015-12-11 11:28:25 · 7103 阅读 · 0 评论 -
Sqoop实现MySql/Oracle与Hdfs/Hbase互导数据
下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装Hadoop,并实现免密原创 2014-11-01 21:18:24 · 1560 阅读 · 0 评论 -
Hive总结(五)hive日志
日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况,默认的存储情况:hive.root.log原创 2014-10-22 17:19:10 · 17057 阅读 · 0 评论 -
用通俗易懂的话说下hadoop是什么,能做什么
1、hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不......原创 2014-04-10 10:36:33 · 118847 阅读 · 11 评论 -
用通俗易懂的大白话讲解Map/Reduce原理
下面是我自己的微信公众号(不定期更新 JAVA 、大数据、个人成长等干货)1、公众号上有经典的技术电子书可以免费领2、大家有问题可以在公众号问我,只要你问了我就会回复(相互交流)也可以扫描下面二维码,加我个人微信,和我直接沟通Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及......原创 2014-03-31 16:20:44 · 169076 阅读 · 33 评论 -
Hive总结(十一)Hive自定义函数UDF
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Inte原创 2014-11-27 15:49:21 · 2122 阅读 · 0 评论 -
Hive总结(八)Hive数据导出三种方式
今天我们再谈谈Hive中的三种不同的数据导出方式。根据导出的地方不一样,将这些方式分为三种:(1)导出到本地文件系统;(2)导出到HDFS中;(3)导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。一、导出到本地文件系统hive> insert overwrite local directory '/home/wyp/wyp' > selec...原创 2014-10-29 17:58:36 · 63227 阅读 · 3 评论 -
开源日志系统比较:scribe、chukwa、kafka、flume
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水转载 2016-09-20 14:54:42 · 4159 阅读 · 0 评论 -
Hive 设置map 和 reduce 的个数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有原创 2015-12-11 17:59:08 · 2910 阅读 · 0 评论 -
hive 报:java.net.NoRouteToHostException: 没有到主机的路由
这种没有到主机的路由问题屡见不鲜了,一般要么是namenode 与 datanode 主机名间本身互ping就ping不通,这个概率较小,因为都知道要保证master与slaves 节点是能正常通信,所以都会检查。那么最有可能就是防火墙没有关闭,或者因为查看不出防火墙状态,所以误以为防火墙关闭了。解决方案:(1)从namenode主机ping其它slaves节点的主机名(注意是sl原创 2015-12-21 15:33:59 · 6113 阅读 · 0 评论 -
hive常用函数
字符串函数字符串长度函数:length Java代码 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual; 7 字符串反转函数:reverse转载 2016-07-29 08:18:19 · 1309 阅读 · 1 评论 -
Hive总结(四)hive安装记录
本篇为安装篇较简单:前提:1: 安装了hadoop-1.0.4(1.0.3也可以)正常运行2:安装了hbase-0.94.3, 正常运行接下来,安装Hive,基于已经安装好的hadoop,步骤如下:1:下载从http://hive.apache.org/下载hive-0.9.0/创建目录/hive将文件hive-0.9.0保存在/hive下原创 2014-10-22 16:49:41 · 3197 阅读 · 0 评论 -
Hive总结(九)Hive体系结构
Hive结构和原理详细介绍原创 2014-10-30 11:11:13 · 16229 阅读 · 2 评论 -
Hive总结(十二)Hive查询进阶
通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理,转载 2014-11-27 16:34:08 · 5138 阅读 · 0 评论 -
Hive总结(一)hive初始
1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它了解多少?2.它到底是什么?3.hive和hadoop是什么关系?扩展:hbase和hive是什么关系?Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求转载 2014-10-16 11:53:26 · 3898 阅读 · 0 评论 -
Hive总结(二)hive基本操作
阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and th原创 2014-10-19 11:42:08 · 16185 阅读 · 0 评论 -
Hive总结(三)hive组件和执行过程
对Hive的基本组成进行了总结:1、组件:元存储(Metastore )-存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动(Driver )- 控制 HiveQL 生命周期的组件,当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器(Query Compiler) - 是一个组件,将HiveQL编译成有向无环图(directed转载 2014-10-19 13:29:01 · 6938 阅读 · 0 评论 -
Hive中分组取前N个值
背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。 解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它转载 2014-11-27 16:47:35 · 20059 阅读 · 0 评论 -
Hive总结(十)Hive 输入输出适配类(输出CSV,XML)
初次使用 hive ,应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似,语法上有大量相同的地方,这给我们上手带来了很大的方便,但是要得心应手地写好这些语句,还需要对 hive 有较好的了解,才能结合 hive 特色写出精妙的语句。关于 hive 语言的详细语法可参考官方 wiki 的语言手册:http://wiki.apache.org/hadoop/H原创 2014-10-30 17:54:14 · 9118 阅读 · 0 评论