[Hadoop]大量小文件问题及解决方案

1. HDFS上的小文件问题小文件是指文件大小明显小于HDFS上块(block)大小(默认64MB)的文件。如果存储小文件,必定会有大量这样的小文件,否则你也不会使用Hadoop(If you’re storing small files, then you probably have lots of them (otherwise you wouldn’t turn to Hadoop)),这样...
阅读(5286) 评论(3)

[Hadoop]输入路径过滤,通配符与PathFilter

1. 丢失文件路径过滤应用场景:我们想查询一个月以来度假的订单数据,但是HDFS中可能因为业务故障,导致某一天的订单数据不存在:FileInputFormat.setInputPaths(job, inputPath);上述代码在遇到路径不存在的时候会报错。所以在设置路径之前需要进行一次判断,判断这个路径在HDFS上是否存在,如果存在,使用addInputPath方法添加:FileSystem f...
阅读(2498) 评论(0)

[Hadoop]Hadoop单元测试MRUnit

1. 设置开发环境从(https://repository.apache.org/content/repositories/releases/org/apache/mrunit/mrunit/)下载最新版本的MRUnit jar,例如如果你使用的hadoop版本为1.0.3,则需要下载mrunit-x.x.x-incubating-hadoop2.jar。同时还需要下载JUnit最新版本jar。如...
阅读(1210) 评论(0)

[Hadoop]MapReduce多输出

FileOutputFormat及其子类产生的文件放在输出目录下。每个reducer一个文件并且文件由分区号命名:part-r-00000,part-r-00001,等等。有时可能要对输出的文件名进行控制或让每个reducer输出多个文件。MapReduce为此提供了MultipleOutputFormat类。MultipleOutputFormat类可以将数据写到多个文件,这些文件的名称源于输出...
阅读(890) 评论(0)

[HBase]HBase安装

1. 启动Hadoop如果没有安装Hadoop,则查看博文:http://blog.csdn.net/sunnyyoona/article/details/53454430启动Hadoop并查看Hadoop版本:xiaosi@yoona:~/opt/hadoop-2.7.3$ sbin/start-dfs.sh Starting namenodes on [localhost]localhost:...
阅读(539) 评论(0)

[Hive]Hive安装

1. 下载可以从http://hive.apache.org/downloads.html下载你想要的版本,在这我们使用的是2.1.0版本2. 解压把下载好的文件解压到~/opt目录下:xiaosi@yoona:~$ tar -zxvf apache-hive-2.1.0-bin.tar.gz -C opt/3. 配置根据模板创建配置文件xiaosi@yoona:~/opt/hive-2.1.0/...
阅读(718) 评论(0)

[Hadoop]Hadoop安装

1. SSH参考博文:[Hadoop]SSH免密码登录以及失败解决方案(http://blog.csdn.net/sunnyyoona/article/details/51689041#t1)2. 下载(1)直接从官网上下载 http://hadoop.apache.org/releases.html(2)使用命令行下载:xiaosi@yoona:~$ wget http://mirrors.hu...
阅读(683) 评论(1)

[Hive]Hive自定义函数UDF

当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数用户自定义函数(user defined function),针对单条记录。 编写一个UDF,需要继承UDF类,并实现evaluate()函数。在查询执行过程中,查询中对应的每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用到evaluate()函数。而evaluate()函数处理的值会返回给Hi...
阅读(3203) 评论(0)

[Sqoop]Sqoop使用

Sqoop的本质还是一个命令行工具,和HDFS,MapReduce相比,并没有什么高深的理论。我们可以通过sqoop help命令来查看sqoop的命令选项,如下:16/11/13 20:10:17 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6usage: sqoop COMMAND [ARGS]Available commands:  codege...
阅读(4280) 评论(2)

[Sqoop]Sqoop导入与导出

1. 导入实例1.1 登陆数据库查看表xiaosi@Qunar:~$ mysql -u root -pEnter password: Welcome to the MySQL monitor.  Commands end with ; or \g.Your MySQL connection id is 8Server version: 5.6.30-0ubuntu0.15.10.1-log (Ub...
阅读(2927) 评论(0)

[Sqoop]Sqoop安装

1. 下载http://www.apache.org/dyn/closer.lua/sqoop/1.4.62. 解压xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt进行重命名:xiaosi@Qunar:/opt$ sudo mv sqoop-1.4.6.bin__hadoop-2.0....
阅读(1109) 评论(0)

[Shell]awk内置函数介绍

这里详细介绍awk内置函数,主要分以下3种类似:算数函数、字符串函数、时间函数、其它一般函数1. 算术函数函数名说明atan2( y, x )返回 y/x 的反正切。cos( x )返回 x 的余弦;x 是弧度。sin( x )返回 x 的正弦;x 是弧度。exp( x )返回 x 幂函数。log( x )返回 x 的自然对数。sqrt( x )返回 x 平方根。int( x )返回 x 的截断至...
阅读(1069) 评论(0)

[Hadoop]Hadoop YARN的发展史与详细解析

带有 MapReduce 的 Apache Hadoop 是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长。Hadoop 还开发了一个丰富多样的应用程序生态系统,包括 Apache Pig(一种强大的脚本语言)和 Apache Hive(一个具有类似 SQL 界面的数据仓库解决方案)。不幸的...
阅读(653) 评论(0)

[Hive]Hive使用指南六 日期相关函数

下面介绍一下常用的Hive日期处理相关函数。1. to_date 日期时间转日期函数(1)to_date语法:to_date(string timestamp)(2)返回值:   string(3)说明: 返回日期时间字段中的日期部分。(4)举例:hive> select to_date('2011-12-08 10:03:01') from dual;2011-12-082. year 日期...
阅读(1151) 评论(0)

[Shell]tr命令详解

1. 用途tr,translate的简写,主要用于压缩重复字符,删除文件中的控制字符以及进行字符转换操作。2. 语法tr [OPTION]... SET1 [SET2]3. 参数3.1 -s 压缩重复字符-s: squeeze-repeats,用SET1指定的字符来替换对应的重复字符 (replace each input sequence of  a  repeated  character  ...
阅读(1116) 评论(0)

[Shell]Join使用

1. 用途Linux join命令用于将两个文件中,指定栏位内容相同的行连接起来。找出两个文件中,指定栏位内容相同的行,并加以合并,再输出到标准输出设备。2. 语法join [OPTION]... FILE1 FILE23. 参数  -a FILENUM also print unpairable lines from file FILENUM, where ...
阅读(903) 评论(0)

[Hive]Hive使用指南四 客户端导入数据

根据导入的地方不一样,主要介绍下面几种方式:(1)从本地文件系统中导入数据到Hive表;(2)从HDFS上导入数据到Hive表;(3)从别的表中查询出相应的数据并导入到Hive表中;1. 本地文件系统导入Hive表中1.1 导入普通Hive表1.1.1 创建普通Hive表CREATE TABLE IF NOT EXISTS order_uid_total(uid string, bucket_ty...
阅读(821) 评论(0)

[Hive]Hive使用指南五 客户端导出数据

根据导出的地方不一样,将这些方式分为三种:(1)导出到本地文件系统中(2)导出到HDFS中(3)导出到Hive的另一个表中1. 导出到本地文件系统中hive (test)> insert overwrite local directory '/home/xiaosi/data/employee'           > select * from employee;WARNING: Hive-on...
阅读(873) 评论(0)

[ElasticSearch]原理之分布式文档存储(Distributed Document Store)

之前的文章中,我们已经知道如何存储数据到索引中以及如何检索它。但是我们掩盖了数据存储到集群中以及从集群中获取数据的具体实现的技术细节(But we glossed over many technical details surrounding how the data is distributed and fetched from the cluster)。 1. 路由文档到分片中(Rout...
阅读(745) 评论(0)

[ElasticSearch]精确值与全文文本

Elasticsearch中的数据可以大致分为两种类型:精确值和全文文本。 1. 精确值(Exact values) 精确值是精确的,正如它的名字一样。比如一个日期或一个用户ID,也可以包含精确的字符串,比如用户姓名或邮件地址。精确值"Foo"不同于和精确值"foo"。同样,精确值2014和精确值2014-09-15也不相同。 2. 全文文本(Full text)...
阅读(1132) 评论(0)
803条 共41页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1240466次
    • 积分:19943
    • 等级:
    • 排名:第437名
    • 原创:621篇
    • 转载:132篇
    • 译文:50篇
    • 评论:173条
    博客专栏
    文章分类
    最新评论