- 博客(17)
- 资源 (69)
- 问答 (17)
- 收藏
- 关注
原创 Hive 日期相关函数
下面介绍一下常用的Hive日期处理相关函数。1.to_date日期时间转日期函数(1)to_date语法:to_date(string timestamp)(2)返回值: string(3)说明:返回日期时间字段中的日期部分。(4)举例:hive> select to_date('2011-12-08 10:03:01') from dual;2011-12-082. year日期...
2016-10-31 22:18:21 3672
原创 [Shell]tr命令详解
1. 用途tr,translate的简写,主要用于压缩重复字符,删除文件中的控制字符以及进行字符转换操作。2. 语法tr [OPTION]... SET1 [SET2]3. 参数3.1 -s 压缩重复字符-s: squeeze-repeats,用SET1指定的字符来替换对应的重复字符 (replace each input sequence of a repeated character
2016-10-31 21:19:58 14663
原创 [Shell]Join使用
1. 用途Linux join命令用于将两个文件中,指定栏位内容相同的行连接起来。找出两个文件中,指定栏位内容相同的行,并加以合并,再输出到标准输出设备。2. 语法join [OPTION]... FILE1 FILE23. 参数 -a FILENUM also print unpairable lines from file FILENUM, where
2016-10-31 11:53:45 2118
原创 [Hive]Hive使用指南四 客户端导入数据
根据导入的地方不一样,主要介绍下面几种方式:(1)从本地文件系统中导入数据到Hive表;(2)从HDFS上导入数据到Hive表;(3)从别的表中查询出相应的数据并导入到Hive表中;1. 本地文件系统导入Hive表中1.1 导入普通Hive表1.1.1 创建普通Hive表CREATE TABLE IF NOT EXISTS order_uid_total(uid string, bucket_ty
2016-10-26 16:32:47 2000
原创 [Hive]Hive使用指南五 客户端导出数据
根据导出的地方不一样,将这些方式分为三种:(1)导出到本地文件系统中(2)导出到HDFS中(3)导出到Hive的另一个表中1. 导出到本地文件系统中hive (test)> insert overwrite local directory '/home/xiaosi/data/employee' > select * from employee;WARNING: Hive-on
2016-10-25 20:19:38 1894
翻译 [ElasticSearch]原理之分布式文档存储(Distributed Document Store)
之前的文章中,我们已经知道如何存储数据到索引中以及如何检索它。但是我们掩盖了数据存储到集群中以及从集群中获取数据的具体实现的技术细节(But we glossed over many technical details surrounding how the data is distributed and fetched from the cluster)。1. 路由文档到分片中(Rout
2016-10-24 21:00:41 2152
翻译 [ElasticSearch]精确值与全文文本
Elasticsearch中的数据可以大致分为两种类型:精确值和全文文本。1. 精确值(Exact values)精确值是精确的,正如它的名字一样。比如一个日期或一个用户ID,也可以包含精确的字符串,比如用户姓名或邮件地址。精确值"Foo"不同于和精确值"foo"。同样,精确值2014和精确值2014-09-15也不相同。2. 全文文本(Full text)
2016-10-19 17:35:57 2668
翻译 [ElasticSearch2.x]映射(Mapping)
为了能够把日期字段处理成日期,把数字字段处理成数字,把字符串字段处理成全文本(Full-text)或精确(Exact-value)的字符串值,Elasticsearch需要知道每个字段里面都包含什么数据类型。这些类型和字段的信息存储在映射(mapping)中。索引中的每个文档都有一个类型(type)。 每个类型拥有自己的映射(mapping)或者模式定义(schema definition
2016-10-19 16:42:52 5756
翻译 ElasticSearch 倒排索引
Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表,以及对于每个单词在文档中的位置组成(An inverted index consists of a list of all the unique words that appear in any document, and for each word
2016-10-19 11:38:39 2936
翻译 [ElasticSearch2.x]分析与分析器(Analyzer)
1. 分析过程分析(analysis)是这样一个过程:(1)首先,标记化一个文本块为适用于倒排索引单独的词(term)(2)然后标准化这些词为标准形式,提高它们的“可搜索性”或“查全率”这个工作是分析器(Analyzer)完成的。2. 分析器组成分析器(Analyzer) 一般由三部分构成,字符过滤器(Character Filters)、分
2016-10-19 10:43:23 3860
原创 [ElasticSearch]Java API之TermQuery
1. 词条查询(Term Query) 词条查询是ElasticSearch的一个简单查询。它仅匹配在给定字段中含有该词条的文档,而且是确切的、未经分析的词条。term 查询 会查找我们设定的准确值。term 查询本身很简单,它接受一个字段名和我们希望查找的值。下面代码查询将匹配 college 字段中含有"California"一词的文档。记住,词条查询是未经分析的,因此
2016-10-18 20:52:33 12672 3
原创 [ElasticSearch]Java API 之 滚动搜索(Scroll API)
一般搜索请求都是返回一"页"数据,无论数据量多大都一起返回给用户,Scroll API可以允许我们检索大量数据(甚至全部数据)。Scroll API允许我们做一个初始阶段搜索并且持续批量从Elasticsearch里拉取结果直到没有结果剩下。这有点像传统数据库里的cursors(游标)。Scroll API的创建并不是为了实时的用户响应,而是为了处理大量的数据(Scrolling is...
2016-10-13 21:41:45 21631 5
原创 [ElasticSearch]Java API 之 索引文档 (Index API)
Index API 允许我们存储一个JSON格式的文档,使数据可以被搜索。文档通过index、type、id唯一确定。我们可以自己提供一个id,或者也使用IndexAPI 为我们自动生成一个。这里有几种不同的方式来产生JSON格式的文档(document):(1)手动方式,使用原生的byte[]或者String(2)使用Map方式,会自动转换成与之等价的JSON...
2016-10-13 13:25:25 7911
原创 [ElasticSearch]那些年踩过的ElasticSerch坑
1. 索引名称错误1.1 代码xiaosi@Qunar:~$ curl -XPUT 'localhost:9200/Quanr/employee/1' '> {> "first_name" : "John",> "last_name" : "Smith",> "age" : 25,> "about" : "I love to
2016-10-12 22:30:41 7659 1
原创 [ElasticSearch2.x]Java API 之 索引管理
ElasticSearch为了便于处理索引管理(Indices administration)请求,提供了org.elasticsearch.client.IndicesAdminClient接口。通过如下代码从 Client 对象中获得这个接口的实现:IndicesAdminClient indicesAdminClient = client.admin().indices();
2016-10-11 20:33:29 9674 4
原创 [ElasticSearch]ElasticSearch插件之Head
1. 安装1.1 不同版本安装方式不同(1)Elasticsearch 5.x:site plugins are not supported. Run elasticsearch-head as a standalone server(2)Elasticsearch 2.x – 4.x:sudo elasticsearch/bin/plugin ins
2016-10-11 09:43:23 2750
原创 [Sqoop]Sqoop安装与部署
1. 下载http://www.apache.org/dyn/closer.lua/sqoop/1.4.62. 解压xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt进行重命名:xiaosi@Qunar:/opt$ sudo mv sq
2016-10-08 15:52:32 1858
Android应用开发揭秘
2015-12-17
Android开发秘籍
2015-12-17
Android开发精要
2015-12-17
Android技术内幕.系统卷
2015-12-17
Android高级编程
2015-12-17
JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发
2015-12-17
Mahout算法解析与案例实战
2015-12-16
LINUX内核设计与实现
2015-12-14
重构-改善即有代码的设计
2015-12-14
算法艺术和信息学竞赛
2015-12-14
apache-mahout-distribution-0.11.1-src
2015-11-30
log4j-1.2.17
2015-11-30
apache-maven-3.3.9-bin
2015-11-30
Better bitmap performance with Roaring bitmaps
2023-03-06
美团外卖离线数仓建设实践
2023-02-19
Redis 入门指南
2017-06-02
Apache Spark源码剖析
2016-11-12
Shell脚本学习指南
2016-05-28
精通Spring
2016-02-07
Spring-Jar-4.2.4
2016-01-28
log4j所需jar包
2016-01-20
Hadoop实战中文版
2015-12-25
大型网站技术核心原理与案例分析
2015-12-25
Hive Range Between 结果错误问题
2023-02-28
Storm Trident 抛异常不重发
2018-11-23
hive SERDEPROPERTIES 实现正则过滤
2018-06-05
Flink 关于窗口Window的问题
2018-01-17
Hive 运行SQL 重定向文件 输出WARN日志
2017-06-13
Hadoop Distcp报错 队列问题
2017-01-17
Hive Join 失败
2016-11-28
Hive 查询问题
2016-09-07
Hive LOAD DATA 错误
2016-07-23
[ElasticSearch] 中文字符串精确搜索 term 搜不到结果
2016-07-05
mysql group by 统计问题
2016-06-17
大型分布式网站架构的演进
2016-05-16
ubuntu IntelliJ Idea设置快捷方式问题
2016-03-08
罗技键盘 k380 连接上 没有任何的反应?
2016-03-06
Maven archetype:generate报错
2016-01-25
Log4j问题
2016-01-16
Java Stringbuilder调用append()方法报错
2015-12-20
nosql开放性问题
2015-12-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人