Ying

个人博客:http://smartsi.club/

排序:
默认
按更新时间
按访问量

[Hadoop]输入路径过滤,通配符与PathFilter

1. 丢失文件路径过滤应用场景:我们想查询一个月以来度假的订单数据,但是HDFS中可能因为业务故障,导致某一天的订单数据不存在:FileInputFormat.setInputPaths(job, inputPath);上述代码在遇到路径不存在的时候会报错。所以在设置路径之前需要进行一次判断,判断...

2016-12-21 16:10:58

阅读数:5376

评论数:0

[Hadoop]Hadoop单元测试MRUnit

1. 设置开发环境从(https://repository.apache.org/content/repositories/releases/org/apache/mrunit/mrunit/)下载最新版本的MRUnit jar,例如如果你使用的hadoop版本为1.0.3,则需要下载mrunit...

2016-12-08 20:12:17

阅读数:2108

评论数:0

[Hadoop]MapReduce多输出

FileOutputFormat及其子类产生的文件放在输出目录下。每个reducer一个文件并且文件由分区号命名:part-r-00000,part-r-00001,等等。有时可能要对输出的文件名进行控制或让每个reducer输出多个文件。MapReduce为此提供了MultipleOutputF...

2016-12-06 14:03:14

阅读数:1503

评论数:0

[HBase]HBase安装

1. 启动Hadoop如果没有安装Hadoop,则查看博文:http://blog.csdn.net/sunnyyoona/article/details/53454430启动Hadoop并查看Hadoop版本:xiaosi@yoona:~/opt/hadoop-2.7.3$ sbin/start...

2016-12-04 20:59:28

阅读数:755

评论数:0

[Hive]Hive安装

1. 下载可以从http://hive.apache.org/downloads.html下载你想要的版本,在这我们使用的是2.1.0版本2. 解压把下载好的文件解压到~/opt目录下:xiaosi@yoona:~$ tar -zxvf apache-hive-2.1.0-bin.tar.gz -...

2016-12-04 17:26:37

阅读数:912

评论数:0

[Hadoop]Hadoop安装

1. SSH参考博文:[Hadoop]SSH免密码登录以及失败解决方案(http://blog.csdn.net/sunnyyoona/article/details/51689041#t1)2. 下载(1)直接从官网上下载 http://hadoop.apache.org/releases.ht...

2016-12-04 15:19:39

阅读数:852

评论数:1

[Hive]Hive自定义函数UDF

当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数用户自定义函数(user defined function),针对单条记录。 编写一个UDF,需要继承UDF类,并实现evaluate()函数。在查询执行过程中,查询中对应的每个应用到这个函数的地方都会对这个类进行...

2016-11-20 21:38:37

阅读数:5404

评论数:0

[Sqoop]Sqoop使用

Sqoop的本质还是一个命令行工具,和HDFS,MapReduce相比,并没有什么高深的理论。我们可以通过sqoop help命令来查看sqoop的命令选项,如下:16/11/13 20:10:17 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6usa...

2016-11-14 20:05:10

阅读数:11737

评论数:2

[Sqoop]Sqoop导入与导出

1. 导入实例1.1 登陆数据库查看表xiaosi@Qunar:~$ mysql -u root -pEnter password: Welcome to the MySQL monitor.  Commands end with ; or \g.Your MySQL connection id ...

2016-11-13 19:59:43

阅读数:5120

评论数:0

[Sqoop]Sqoop安装

1. 下载http://www.apache.org/dyn/closer.lua/sqoop/1.4.62. 解压xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt进行重命名:xiao...

2016-11-13 16:13:48

阅读数:1703

评论数:0

[Shell]awk内置函数介绍

这里详细介绍awk内置函数,主要分以下3种类似:算数函数、字符串函数、时间函数、其它一般函数1. 算术函数函数名说明atan2( y, x )返回 y/x 的反正切。cos( x )返回 x 的余弦;x 是弧度。sin( x )返回 x 的正弦;x 是弧度。exp( x )返回 x 幂函数。log...

2016-11-10 20:10:22

阅读数:1789

评论数:0

[Hadoop]Hadoop YARN的发展史与详细解析

带有 MapReduce 的 Apache Hadoop 是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长。Hadoop 还开发了一个丰富多样的应用程序生态系统,包括 Apache Pig(...

2016-11-08 20:20:22

阅读数:808

评论数:0

[Hive]Hive使用指南六 日期相关函数

下面介绍一下常用的Hive日期处理相关函数。1. to_date 日期时间转日期函数(1)to_date语法:to_date(string timestamp)(2)返回值:   string(3)说明: 返回日期时间字段中的日期部分。(4)举例:hive> select to_date...

2016-10-31 22:18:21

阅读数:1657

评论数:0

[Shell]tr命令详解

1. 用途tr,translate的简写,主要用于压缩重复字符,删除文件中的控制字符以及进行字符转换操作。2. 语法tr [OPTION]... SET1 [SET2]3. 参数3.1 -s 压缩重复字符-s: squeeze-repeats,用SET1指定的字符来替换对应的重复字符 (repla...

2016-10-31 21:19:58

阅读数:2747

评论数:0

[Shell]Join使用

1. 用途Linux join命令用于将两个文件中,指定栏位内容相同的行连接起来。找出两个文件中,指定栏位内容相同的行,并加以合并,再输出到标准输出设备。2. 语法join [OPTION]... FILE1 FILE23. 参数  -a FILENUM als...

2016-10-31 11:53:45

阅读数:1491

评论数:0

[Hive]Hive使用指南四 客户端导入数据

根据导入的地方不一样,主要介绍下面几种方式:(1)从本地文件系统中导入数据到Hive表;(2)从HDFS上导入数据到Hive表;(3)从别的表中查询出相应的数据并导入到Hive表中;1. 本地文件系统导入Hive表中1.1 导入普通Hive表1.1.1 创建普通Hive表CREATE TABLE ...

2016-10-26 16:32:47

阅读数:1135

评论数:0

[Hive]Hive使用指南五 客户端导出数据

根据导出的地方不一样,将这些方式分为三种:(1)导出到本地文件系统中(2)导出到HDFS中(3)导出到Hive的另一个表中1. 导出到本地文件系统中hive (test)> insert overwrite local directory '/home/xiaosi/data/employe...

2016-10-25 20:19:38

阅读数:1197

评论数:0

[ElasticSearch]原理之分布式文档存储(Distributed Document Store)

之前的文章中,我们已经知道如何存储数据到索引中以及如何检索它。但是我们掩盖了数据存储到集群中以及从集群中获取数据的具体实现的技术细节(But we glossed over many technical details surrounding how the data is distributed...

2016-10-24 21:00:41

阅读数:1480

评论数:0

[ElasticSearch]精确值与全文文本

Elasticsearch中的数据可以大致分为两种类型:精确值和全文文本。 1. 精确值(Exact values) 精确值是精确的,正如它的名字一样。比如一个日期或一个用户ID,也可以包含精确的字符串,比如用户姓名或邮件地址。精确值"Foo"不同于和精确值"...

2016-10-19 17:35:57

阅读数:1839

评论数:0

[ElasticSearch2.x]映射(Mapping)

为了能够把日期字段处理成日期,把数字字段处理成数字,把字符串字段处理成全文本(Full-text)或精确(Exact-value)的字符串值,Elasticsearch需要知道每个字段里面都包含什么数据类型。这些类型和字段的信息存储在映射(mapping)中。 索引中的每个文档都有一个类型(ty...

2016-10-19 16:42:52

阅读数:4507

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭