Frantic丶Lin-CSDN博客

翻译 Elasticsearch的Text数据类型

[[text]] === Text 数据类型Text 是一种需要索引全文的字段, 例如邮件正文或者商品描述. 这些字段会被 analyzed(解析): 在索引这些字段前, 它们的原始值会被传入一个 [analysis,analyzer], 进而转换成一些词项. 这个分析过程使得 Elasticsearch 可以查询全文字段中包含的词. Text 字段不用来排序, 但会少量地用于聚合([s...

2018-08-18 21:40:01 6026

翻译 Elasticsearch的Keyword数据类型

[[keyword]] === Keyword 数据类型Keyword 字段用来索引结构化的数据, 例如邮箱地址, 主机名, 状态码, 压缩码或者标签.主要是用于过滤(查找所有 status 为 published 的博客), 排序或者聚合. Keyword 字段只能被精确查询.如果你需要索引全文字段, 例如邮件正文或者商品描述. 那么你很可能应该用 [text,text].下...

2018-08-17 21:03:52 8026

翻译 ElasticSearch的Nested(嵌套)数据类型

nested 类型是一种特殊的 [object,object] 类型. 这种类型允许对 object 数组内的元素进行单独查询.object 数组是怎么展开(flatten)的[object,object] 数组的功能可能跟你想象中的不太一样. Lucene 没有内部 object 的概念, 所以 Elasticsearch 内部会把 object 解析成简单的字段名与值的信息, 以...

2018-08-17 20:58:31 8221 1

原创 MapJoin

由于hive在进行join的过程中要进行shuffle 如果两个表中有一个表比较小,将这个小表加入到每个mapper的内存中, 就可以省去shuffle的过程--开启默认set hive.auto.convert.join=true;--小于这个参数大小的小表则会变成MapJoin为(默认2500000Byte)set hive.mapjoin.smalltable.filesize=...

2018-07-19 20:58:22 2883

原创简单理解MapReduce与Shuffle

shuffle是一个数据重新分配的过程.shuffle的英文释义就是”洗牌” 假设集群(5台机器)里有一个机器A存储了一份数据, 数据里面是一份乱序的扑克牌现在有个任务是计算不同花色的卡牌的数量 MapReduce是一个多台机器并行计算的过程, 所以如果用另外4台机器(B,C,D,F)来各自计算4个花色的卡牌数将卡牌一张张取出来就是 map 过程(一对一) 就会需要把A里的卡牌(...

2018-07-18 20:42:24 504

原创观察者模式

# -*- coding: utf-8 -*-class Observer: def __init__(self,observer_id): self.observer_id = observer_id def update(self,subject): print(f'{self.observer_id}: subject updated to...

2018-07-16 21:08:33 144

原创依赖注入

# -*- coding: utf-8 -*-# 假定有一个类Computer依赖于类Cpuclass Cpu: def __init__(self,brand): self.brand = brand def __str__(self): return f"CPU: <{self.brand}>"class Computer...

2018-07-15 20:05:37 136

原创 Spark读取与写入文件

入口在 2.3.0 的Spark版本中, SparkSession是统一的入口了//创建 SparkSessionval spark = SparkSession .builder .appName('MySparkApp') .enableHiveSupport() //开启访问Hive数据, 要将hive-site.xml等文件放入Spark的...

2018-07-03 20:57:22 19791

原创对BitMap和布隆过滤器的理解

BitMap将每一个元素映射到一个Byte[]数组, 那么判断每个元素是否存在于一个数据集时, 直接用下标获取标记位进行判断即可 ○○ [] ●○ [1] ○● [2] ●● [1,2]布隆过滤器当我们允许一定的误差, 比如让 1,3 可以都映射到Byte[]数组中的同一个位置, 那么 ○○ [] ●○ 可能是 [1] 或者 [3] 或者 [1,3] ○● [2] ...

2018-07-02 21:06:57 1004

原创 ElasticSearch常用查询入门

1. 索引1.1 创建索引PUT /my_index?prettyGET /_cat/indices?v2. 写入2.1 新增文档PUT /my_index/_doc/1{ "field_0" : "a", "field_1" : ["red"]}2.2 更新单个文档//普通更新POST /my_index/_doc/1/_update{ "doc" : {...

2018-06-29 20:44:42 212

原创通过Hive自带的jar包生成Hbase的Hfile

1. hive建表set hive.execution.engine=mr;set hfile.compression=gz;add jar hive-hbase-handler-version.jar; create table my_hbase_table(key string, cf_0_c0 string, cf_0_c1 string, ...)stored asINPUTF...

2018-06-29 20:34:48 2803 1

原创 Flask实现异步服务器

Flask的服务, 默认是同步的, 所以以下代码, 在接收多个请求是会发生阻塞: # -*- coding: utf-8 -*-from flask import Flaskimport requestsimport randomfrom datetime import datetimeapp = Flask(__name__)urls = ['https://www.python.o...

2018-06-29 20:07:55 2805 1

原创怎么理解Tableau的维度和度量

刚接触Tableau不久的人,可能不怎么了解维度和度量的意思,或者只了解个大概.下面我用我的理解来比喻这两个概念.这是一份数据如果这份数据比喻成一块豆腐或者蛋糕,那么维度就是一把切刀,可以把数据横着切,纵着切(取决于你放到列,或者行)用类别,纵切成三份再用细分,横切三刀,变六份而度量就是用来计算切出来的每一块的大小,面积,重量这就是度量和维度.理解了这两个概

2017-02-23 21:33:55 17289 1