大数据
文章平均质量分 65
乐哉悠哉
夏虫不可语冰者,语于夏花
展开
-
Spark 基础概念解读
Driver Worker Master Executor Job Stage Task原创 2018-07-27 16:58:17 · 545 阅读 · 0 评论 -
Presto 学习笔记
Presto是由Facebook开发的一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它的产生是为了解决Hive的MapReduce模型太慢以及不能通过BI或Dashboards直接展现HDFS数据等问题。Presto是一个纯粹的计算引擎,它不存储数据,其通过Connector获取第三方Storage服务的数据。第三方Storage服务的数据,除了前述的Hive,Prest...原创 2018-10-25 15:21:43 · 1166 阅读 · 0 评论 -
ElasticSearch 6.5 keyword 和 text 字段差异及查询
keyword 和 text 字段类型首先,ES 索引的相关信息可以参见建立索引的命令。curl -u user:password \-X PUT "http://host:port/my_test_index" \-H 'Content-Type: application/json' -d'{ "settings":{"index":{"number_of_shar原创 2019-01-17 11:07:35 · 7105 阅读 · 0 评论 -
ElasticSearch Query DSL
ES 的 DSL 通常由两种子句组成:针对特定字段匹配特定值的 Leaf query clauses,例如 match, match_all, term 或者 range 查询组合了 Leaf query clauses 或其它复合查询的 Compound query clauses (复合查询),例如 bool 或者 dis_max 查询上述两种查询在 匹配和过滤(query cont...原创 2019-01-16 22:14:43 · 523 阅读 · 0 评论 -
理解 HBase 的数据模型
本文源自 Unstanding HBase and BigTableHBase 是 Google BigTable 的开源实现。BigTable 是一个稀疏的、分布式的、持久化的多维有序 map,该 map 由 row key, column key 和一个时间戳(timestamp)构成索引,索引对应的值是原始的字节数组。HBase 的数据模型和上述定义类似。这里比较独特的是这个 map ...原创 2019-03-01 16:02:35 · 418 阅读 · 0 评论