[ElasticSearch2.x]映射(Mapping)

为了能够把日期字段处理成日期,把数字字段处理成数字,把字符串字段处理成全文本(Full-text)或精确(Exact-value)的字符串值,Elasticsearch需要知道每个字段里面都包含什么数据类型。这些类型和字段的信息存储在映射(mapping)中。 索引中的每个文档都有一个类型(type)。 每个类型拥有自己的映射(mapping)或者模式定义(schema definition...
阅读(3453) 评论(0)

[ElasticSearch]倒排索引

Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表,以及对于每个单词在文档中的位置组成( An inverted index consists of a list of all the unique words that appear in any document, and for each word...
阅读(1340) 评论(0)

[ElasticSearch2.x]分析与分析器(Analyzer)

1. 分析过程 分析(analysis)是这样一个过程: (1)首先,标记化一个文本块为适用于倒排索引单独的词(term) (2)然后标准化这些词为标准形式,提高它们的“可搜索性”或“查全率” 这个工作是分析器(Analyzer)完成的。 2. 分析器组成 分析器(Analyzer) 一般由三部分构成,字符过滤器(Character Filters)、分...
阅读(1918) 评论(0)

[ElasticSearch]Java API 之 词条查询(Term Level Query)

1. 词条查询(Term Query)  词条查询是ElasticSearch的一个简单查询。它仅匹配在给定字段中含有该词条的文档,而且是确切的、未经分析的词条。term 查询 会查找我们设定的准确值。term 查询本身很简单,它接受一个字段名和我们希望查找的值。 下面代码查询将匹配 college 字段中含有"California"一词的文档。记住,词条查询是未经分析的,因此...
阅读(3394) 评论(1)

[ElasticSearch]Java API 之 滚动搜索(Scroll API)

一般搜索请求都是返回一"页"数据,无论数据量多大都一起返回给用户,Scroll API可以允许我们检索大量数据(甚至全部数据)。Scroll API允许我们做一个初始阶段搜索并且持续批量从Elasticsearch里拉取结果直到没有结果剩下。这有点像传统数据库里的cursors(游标)。 Scroll API的创建并不是为了实时的用户响应,而是为了处理大量的数据(Scrolling is...
阅读(5503) 评论(3)

[ElasticSearch]Java API 之 索引文档 (Index API)

Index API 允许我们存储一个JSON格式的文档,使数据可以被搜索。文档通过index、type、id唯一确定。我们可以自己提供一个id,或者也使用Index API 为我们自动生成一个。 这里有几种不同的方式来产生JSON格式的文档(document): (1)手动方式,使用原生的byte[]或者String (2)使用Map方式,会自动转换成与之等价的JSON...
阅读(4154) 评论(0)

[ElasticSearch]那些年踩过的ElasticSerch坑

1. 索引名称错误 1.1 代码 xiaosi@Qunar:~$ curl -XPUT 'localhost:9200/Quanr/employee/1'  '> {>     "first_name" : "John",>     "last_name" :  "Smith",>     "age" :        25,>     "about" :      "I love to...
阅读(2988) 评论(0)

[ElasticSearch2.x]Java API 之 索引管理

ElasticSearch为了便于处理索引管理(Indices administration)请求,提供了 org.elasticsearch.client.IndicesAdminClient接口。通过如下代码从 Client 对象中获得这个接口的实现: IndicesAdminClient indicesAdminClient = client.admin().indices();...
阅读(6516) 评论(3)

[ElasticSearch]ElasticSearch插件之Head

1. 安装 1.1 不同版本安装方式不同 (1)Elasticsearch 5.x: site plugins are not supported. Run elasticsearch-head as a standalone server (2)Elasticsearch 2.x – 4.x: sudo elasticsearch/bin/plugin ins...
阅读(1865) 评论(0)

[Sqoop]Sqoop安装与部署

1. 下载 http://www.apache.org/dyn/closer.lua/sqoop/1.4.6 2. 解压 xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt 进行重命名: xiaosi@Qunar:/opt$ sudo mv sq...
阅读(606) 评论(0)

[Presto]部署运行Presto

1. 安装Presto 下载Presto server tarball,presto-server-0.100.tar.gz,将它解压。 它包含一个顶级目录, presto-server-0.100,我们叫它安装目录。Presto需要一个用于存储日志、本地元数据等的数据目录。 建议在安装目录的外面创建一个数据目录。这样方便Presto进行升级。 下载地址:https://repo1.m...
阅读(1775) 评论(0)

[Presto]什么是Presto

1. Presto不是什么 虽然Presto一直被一些个人或者团体称为 数据库 ,但是Presto并不是数据库。 千万不要以为Presto可以解析SQL,那么Presto就是一个标准的数据库。Presto并不是传统意义上的数据库。Presto并不是MySQL、PostgreSQL或者Oracle的代替品。Presto并不能用来处理在线事务。其实很多其他的数据库产品也是被用来设计为数据仓...
阅读(927) 评论(0)

[Thrift]Apache Thrift入门Java实例

1. 概述 Apache Thrift 是 Facebook 实现的一种高效的、支持多种编程语言的远程服务调用的框架。本文将从 Java 开发人员角度详细介绍 Apache Thrift 的架构、开发和部署,并且针对不同的传输协议和服务类型给出相应的 Java 实例,同时详细介绍 Thrift 异步客户端的实现,最后提出使用 Thrift 需要注意的事项。 目前流行的服务调用方式有很多...
阅读(3576) 评论(0)

[Flume]安装,部署与应用案例

1. 官网  http://flume.apache.org/ 2. 下载 http://flume.apache.org/download.html 3. 安装 3.1 将下载的flume包,解压到/opt目录中 3.2 创建 flume-env.sh 配置文件 xiaosi@Qunar:/opt/apache-flume-1.6.0-bin/c...
阅读(953) 评论(0)

[Avro]Avro入门例子

1. Maven配置 pom.xml xml version="1.0" encoding="UTF-8"?> xmlns="http://maven.apache.org/POM/4.0.0"         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"         xsi:schemaLocation="http...
阅读(1173) 评论(0)

[MongoDB]Update更新数据

Update操作只作用于集合中存在的文档。MongoDB提供了如下方法来更新集合中的文档: db.collection.update()db.collection.updateOne() New in version 3.2db.collection.updateMany() New in version 3.2db.collection.replaceOne() New in...
阅读(12659) 评论(0)

[MongoDB]条件操作符

MongoDB支持大量的条件操作符用于过滤结果。 所有数据: > db.Book.find();{ "_id" : ObjectId("57bbd6b2521d77442c8b9055"), "title" : "MongoDB : The Definitive Guide", "author" : "Kristina Chodorow", "year" : "2010-9-24",...
阅读(667) 评论(0)

[kylin]Kylin 快速数据立方算法揭秘

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。它能在亚秒内查询巨大的Hive表。本文将详细介绍Apache Kylin 1.5中的Fast-Cubing算法。 Fast Cubing,也称快速数据立方算法, 是一个新的Cube算法。我们知道,Cube的思想是用空间换时间, 通过预先的计算,把索引及...
阅读(2371) 评论(0)

[MongoDB]聚集命令

1. 使用count()函数返回文档的数目 函数count()将返回集合中文档数目: > db.Book.count();2 还可以执行额外的过滤,结合条件操作符使用count(): > db.Book.find({"author":"丁雪丰"});{ "_id" : ObjectId("57bc51df521d776dc5921dfd"), "title" : "MongoDB实...
阅读(753) 评论(0)

[MongoDB]MongoDB Java 入门

1. 驱动 Maven配置:http://mongodb.github.io/mongo-java-driver/    org.mongodb    mongodb-driver    3.3.0 2. 连接数据库 连接数据库,你需要指定数据库名称,如果指定的数据库不存在,mongo会自动创建数据库。 public class Test {    priv...
阅读(539) 评论(0)
803条 共41页首页 上一页 ... 6 7 8 9 10 ... 下一页 尾页
    个人资料
    • 访问:1240466次
    • 积分:19943
    • 等级:
    • 排名:第437名
    • 原创:621篇
    • 转载:132篇
    • 译文:50篇
    • 评论:173条
    博客专栏
    文章分类
    最新评论