![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 81
qq_26369213
这个作者很懒,什么都没留下…
展开
-
基于hive进行简单压缩技术测试
1、准备测试数据、在hive上创建表page_views,并将测试将数据导入create table page_views(track_time string,url string,session_id string,referer string,ip string,end_user_id string,city_id string)ROW FORMAT DELIMITED FIE...原创 2018-03-03 12:55:11 · 378 阅读 · 1 评论 -
浅谈HADOOP中压缩技术的选择
众所周知,没有任何一种压缩算法能达到一劳永逸的效果,如何选择压缩算法需要实际情况实际分析,归根到底其实就是时间与空间的选择。压缩的好处 和 坏处好处: 1、节省空间 2、减少IO(硬盘IO 和 网络传输IO) 3、减少网络传输时间 坏处: 1、由于使用数据时,需要先将数据解压,加重CPU负荷常用的压缩技术: 目前如果LZO使用索引技术,是能支持风格压缩在Hado...原创 2018-03-03 12:44:35 · 422 阅读 · 0 评论 -
hadoop伪集群模式部署
系统:centOS6.5 x86_64hadoop版本:hadoop-2.6.0-cdh5.7.0JDK版本:1.7参考网址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html1、下载cdh版本的hadoophttp://archive.cloudera.com/cdh...原创 2017-12-28 20:46:53 · 197 阅读 · 0 评论 -
通过源码了解hdfs客户端写文件流程
之前梳理了一下hdfs客户端的简单流程,但为了跟深刻的了解,所以尝试通过源码了解一次。先准备demo代码,将断点打在fs.copyFromLocalFile()。public class HdfsClientDemo { FileSystem fs = null; Configuration conf = null; @Before public void init() throws Ex...原创 2018-01-01 19:06:19 · 764 阅读 · 0 评论 -
客户端向yarn提交MR作业流程简述
这里简述一下客户端向yarn提交MR作业是,yarn是如何进行调度,同时会有哪些进程(windos下为线程)协调工作。1、yarn简述yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式操作系统平台,而mapreduce等运算程序则相当于运行与操作系统之上的应用程序。yarn在hadoop2.x系列中被加入的资源管理器,取代hadoop1.x中的jobtracker,将资...原创 2018-01-04 22:45:46 · 4658 阅读 · 0 评论 -
hive笔记-静态分区和动态分区
1、静态分区CREATE TABLE emp_dept_partition(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double) PARTITIONED BY (deptno int)ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t" ;备注:静态...原创 2018-01-07 22:21:34 · 2949 阅读 · 0 评论 -
hive笔记-自定义UDF
1、定义自己的UDF函数package com.hihi.hive;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class HelloWord extends UDF { public Text evaluate(final Text s) { ...原创 2018-01-11 21:37:26 · 2076 阅读 · 0 评论 -
hive笔记-通过修改源码注册永久UDF
准备:先下载对应版本的源码,并源码编译一次。1、找出对应的java文件,并对其修改[root@hadoop001 hive-1.1.0-cdh5.7.0]# find . -name FunctionRegistry.java./ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java2、修改FunctionRegistry...原创 2018-01-12 23:28:28 · 897 阅读 · 0 评论 -
hive笔记-刷新分区
1、选择一张分区表(本次取的是内部表),把分区数据取到本地。[root@hadoop001 hiveData]# hadoop fs -get /user/hive/warehouse/emp_dept_partition/deptno=30/000000_0 emp_dept_partition-deptno30[root@hadoop001 hiveData]# lsdept emp_d...原创 2018-01-14 16:46:20 · 12423 阅读 · 0 评论 -
hive笔记-使用JDBC操作hive
参考网址:https://cwiki.apache.org/confluence/display/Hive/HiveClient#HiveClient-JDBC其实根据官网的wiki即可实现,连代码都不用自己敲,但是有几个地方需要注意的。package com.hihi.hive;import java.sql.SQLException;import java.sql.Connection;...原创 2018-01-16 21:29:08 · 3633 阅读 · 1 评论 -
Hadoop源码编译
系统:centOS 6.5-x86_64Hadoop版本:hadoop-2.8.11、下载hadoop源码,如果官网没有对应的版本,可以选择去github下载。http://hadoop.apache.org/releases.htmlhttps://github.com/apache/hadoop2、准备编译环境下载好源码后,解压后先修改解压文件的原创 2017-12-28 20:18:15 · 171 阅读 · 0 评论 -
hadoop支持lzo完整过程
转自 http://blog.csdn.net/joseph_happy/article/details/50374057 简介部署安装lzop native library安装hadoop-lzo配置hadoop环境变量验证lzo(通过hive测试)创建lzo表导入数据...转载 2018-03-05 20:18:26 · 4629 阅读 · 2 评论