当前搜索:

[Sqoop]Sqoop使用

Sqoop的本质还是一个命令行工具,和HDFS,MapReduce相比,并没有什么高深的理论。我们可以通过sqoop help命令来查看sqoop的命令选项,如下:16/11/13 20:10:17 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6usage: sqoop COMMAND [ARGS]Available commands:  codege...
阅读(5228) 评论(2)

[Sqoop]Sqoop导入与导出

1. 导入实例1.1 登陆数据库查看表xiaosi@Qunar:~$ mysql -u root -pEnter password: Welcome to the MySQL monitor.  Commands end with ; or \g.Your MySQL connection id is 8Server version: 5.6.30-0ubuntu0.15.10.1-log (Ub...
阅读(3205) 评论(0)

[Sqoop]Sqoop安装

1. 下载http://www.apache.org/dyn/closer.lua/sqoop/1.4.62. 解压xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt进行重命名:xiaosi@Qunar:/opt$ sudo mv sqoop-1.4.6.bin__hadoop-2.0....
阅读(1233) 评论(0)

[Shell]awk内置函数介绍

这里详细介绍awk内置函数,主要分以下3种类似:算数函数、字符串函数、时间函数、其它一般函数1. 算术函数函数名说明atan2( y, x )返回 y/x 的反正切。cos( x )返回 x 的余弦;x 是弧度。sin( x )返回 x 的正弦;x 是弧度。exp( x )返回 x 幂函数。log( x )返回 x 的自然对数。sqrt( x )返回 x 平方根。int( x )返回 x 的截断至...
阅读(1279) 评论(0)

[Hadoop]Hadoop YARN的发展史与详细解析

带有 MapReduce 的 Apache Hadoop 是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长。Hadoop 还开发了一个丰富多样的应用程序生态系统,包括 Apache Pig(一种强大的脚本语言)和 Apache Hive(一个具有类似 SQL 界面的数据仓库解决方案)。不幸的...
阅读(702) 评论(0)

[Hive]Hive使用指南六 日期相关函数

下面介绍一下常用的Hive日期处理相关函数。1. to_date 日期时间转日期函数(1)to_date语法:to_date(string timestamp)(2)返回值:   string(3)说明: 返回日期时间字段中的日期部分。(4)举例:hive> select to_date('2011-12-08 10:03:01') from dual;2011-12-082. year 日期...
阅读(1288) 评论(0)

[Shell]tr命令详解

1. 用途tr,translate的简写,主要用于压缩重复字符,删除文件中的控制字符以及进行字符转换操作。2. 语法tr [OPTION]... SET1 [SET2]3. 参数3.1 -s 压缩重复字符-s: squeeze-repeats,用SET1指定的字符来替换对应的重复字符 (replace each input sequence of  a  repeated  character  ...
阅读(1364) 评论(0)

[Shell]Join使用

1. 用途Linux join命令用于将两个文件中,指定栏位内容相同的行连接起来。找出两个文件中,指定栏位内容相同的行,并加以合并,再输出到标准输出设备。2. 语法join [OPTION]... FILE1 FILE23. 参数  -a FILENUM also print unpairable lines from file FILENUM, where ...
阅读(1044) 评论(0)

[Hive]Hive使用指南四 客户端导入数据

根据导入的地方不一样,主要介绍下面几种方式:(1)从本地文件系统中导入数据到Hive表;(2)从HDFS上导入数据到Hive表;(3)从别的表中查询出相应的数据并导入到Hive表中;1. 本地文件系统导入Hive表中1.1 导入普通Hive表1.1.1 创建普通Hive表CREATE TABLE IF NOT EXISTS order_uid_total(uid string, bucket_ty...
阅读(928) 评论(0)

[Hive]Hive使用指南五 客户端导出数据

根据导出的地方不一样,将这些方式分为三种:(1)导出到本地文件系统中(2)导出到HDFS中(3)导出到Hive的另一个表中1. 导出到本地文件系统中hive (test)> insert overwrite local directory '/home/xiaosi/data/employee'           > select * from employee;WARNING: Hive-on...
阅读(966) 评论(0)

[ElasticSearch]原理之分布式文档存储(Distributed Document Store)

之前的文章中,我们已经知道如何存储数据到索引中以及如何检索它。但是我们掩盖了数据存储到集群中以及从集群中获取数据的具体实现的技术细节(But we glossed over many technical details surrounding how the data is distributed and fetched from the cluster)。 1. 路由文档到分片中(Rout...
阅读(971) 评论(0)

[ElasticSearch]精确值与全文文本

Elasticsearch中的数据可以大致分为两种类型:精确值和全文文本。 1. 精确值(Exact values) 精确值是精确的,正如它的名字一样。比如一个日期或一个用户ID,也可以包含精确的字符串,比如用户姓名或邮件地址。精确值"Foo"不同于和精确值"foo"。同样,精确值2014和精确值2014-09-15也不相同。 2. 全文文本(Full text)...
阅读(1296) 评论(0)

[ElasticSearch2.x]映射(Mapping)

为了能够把日期字段处理成日期,把数字字段处理成数字,把字符串字段处理成全文本(Full-text)或精确(Exact-value)的字符串值,Elasticsearch需要知道每个字段里面都包含什么数据类型。这些类型和字段的信息存储在映射(mapping)中。 索引中的每个文档都有一个类型(type)。 每个类型拥有自己的映射(mapping)或者模式定义(schema definition...
阅读(3843) 评论(0)

[ElasticSearch]倒排索引

Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表,以及对于每个单词在文档中的位置组成( An inverted index consists of a list of all the unique words that appear in any document, and for each word...
阅读(1579) 评论(0)

[ElasticSearch2.x]分析与分析器(Analyzer)

1. 分析过程 分析(analysis)是这样一个过程: (1)首先,标记化一个文本块为适用于倒排索引单独的词(term) (2)然后标准化这些词为标准形式,提高它们的“可搜索性”或“查全率” 这个工作是分析器(Analyzer)完成的。 2. 分析器组成 分析器(Analyzer) 一般由三部分构成,字符过滤器(Character Filters)、分...
阅读(2173) 评论(0)

[ElasticSearch]Java API之TermQuery

1. 词条查询(Term Query)  词条查询是ElasticSearch的一个简单查询。它仅匹配在给定字段中含有该词条的文档,而且是确切的、未经分析的词条。term 查询 会查找我们设定的准确值。term 查询本身很简单,它接受一个字段名和我们希望查找的值。 下面代码查询将匹配 college 字段中含有"California"一词的文档。记住,词条查询是未经分析的,因此...
阅读(3990) 评论(3)

[ElasticSearch]Java API 之 滚动搜索(Scroll API)

一般搜索请求都是返回一"页"数据,无论数据量多大都一起返回给用户,Scroll API可以允许我们检索大量数据(甚至全部数据)。Scroll API允许我们做一个初始阶段搜索并且持续批量从Elasticsearch里拉取结果直到没有结果剩下。这有点像传统数据库里的cursors(游标)。 Scroll API的创建并不是为了实时的用户响应,而是为了处理大量的数据(Scrolling is...
阅读(6908) 评论(3)

[ElasticSearch]Java API 之 索引文档 (Index API)

Index API 允许我们存储一个JSON格式的文档,使数据可以被搜索。文档通过index、type、id唯一确定。我们可以自己提供一个id,或者也使用Index API 为我们自动生成一个。 这里有几种不同的方式来产生JSON格式的文档(document): (1)手动方式,使用原生的byte[]或者String (2)使用Map方式,会自动转换成与之等价的JSON...
阅读(4588) 评论(0)

[ElasticSearch]那些年踩过的ElasticSerch坑

1. 索引名称错误 1.1 代码 xiaosi@Qunar:~$ curl -XPUT 'localhost:9200/Quanr/employee/1'  '> {>     "first_name" : "John",>     "last_name" :  "Smith",>     "age" :        25,>     "about" :      "I love to...
阅读(3722) 评论(1)

[ElasticSearch2.x]Java API 之 索引管理

ElasticSearch为了便于处理索引管理(Indices administration)请求,提供了 org.elasticsearch.client.IndicesAdminClient接口。通过如下代码从 Client 对象中获得这个接口的实现: IndicesAdminClient indicesAdminClient = client.admin().indices();...
阅读(7308) 评论(3)
816条 共41页首页 上一页 ... 6 7 8 9 10 ... 下一页 尾页
    个人资料
    • 访问:1372036次
    • 积分:21288
    • 等级:
    • 排名:第400名
    • 原创:623篇
    • 转载:133篇
    • 译文:60篇
    • 评论:180条
    博客专栏
    文章分类
    最新评论