自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

林 的博客

大数据

  • 博客(13)
  • 收藏
  • 关注

翻译 Elasticsearch的Text数据类型

[[text]] === Text 数据类型Text 是一种需要索引全文的字段, 例如邮件正文或者商品描述. 这些字段会被 analyzed(解析): 在索引这些字段前, 它们的原始值会被传入一个 [analysis,analyzer], 进而转换成一些词项. 这个分析过程使得 Elasticsearch 可以查询全文字段中包含的词. Text 字段不用来排序, 但会少量地用于聚合([s...

2018-08-18 21:40:01 5892

翻译 Elasticsearch的Keyword数据类型

[[keyword]] === Keyword 数据类型Keyword 字段用来索引结构化的数据, 例如邮箱地址, 主机名, 状态码, 压缩码或者标签.主要是用于过滤(查找所有 status 为 published 的博客), 排序或者聚合. Keyword 字段只能被精确查询.如果你需要索引全文字段, 例如邮件正文或者商品描述. 那么你很可能应该用 [text,text].下...

2018-08-17 21:03:52 7871

翻译 ElasticSearch的Nested(嵌套)数据类型

nested 类型是一种特殊的 [object,object] 类型. 这种类型允许对 object 数组内的元素进行单独查询.object 数组是怎么展开(flatten)的[object,object] 数组的功能可能跟你想象中的不太一样. Lucene 没有内部 object 的概念, 所以 Elasticsearch 内部会把 object 解析成简单的字段名与值的信息, 以...

2018-08-17 20:58:31 8103 1

原创 MapJoin

由于hive在进行join的过程中要进行shuffle 如果两个表中有一个表比较小,将这个小表加入到每个mapper的内存中, 就可以省去shuffle的过程--开启默认set hive.auto.convert.join=true;--小于这个参数大小的小表则会变成MapJoin为(默认2500000Byte)set hive.mapjoin.smalltable.filesize=...

2018-07-19 20:58:22 2807

原创 简单理解MapReduce与Shuffle

shuffle是一个数据重新分配的过程.shuffle的英文释义就是”洗牌” 假设集群(5台机器)里有一个机器A存储了一份数据, 数据里面是一份乱序的扑克牌 现在有个任务是计算不同花色的卡牌的数量 MapReduce是一个多台机器并行计算的过程, 所以如果用另外4台机器(B,C,D,F)来各自计算4个花色的卡牌数 将卡牌一张张取出来就是 map 过程(一对一) 就会需要把A里的卡牌(...

2018-07-18 20:42:24 445

原创 观察者模式

# -*- coding: utf-8 -*-class Observer: def __init__(self,observer_id): self.observer_id = observer_id def update(self,subject): print(f'{self.observer_id}: subject updated to...

2018-07-16 21:08:33 112

原创 依赖注入

# -*- coding: utf-8 -*-# 假定有一个类Computer依赖于类Cpuclass Cpu: def __init__(self,brand): self.brand = brand def __str__(self): return f"CPU: <{self.brand}>"class Computer...

2018-07-15 20:05:37 106

原创 Spark读取与写入文件

入口在 2.3.0 的Spark版本中, SparkSession是统一的入口了//创建 SparkSessionval spark = SparkSession .builder .appName('MySparkApp') .enableHiveSupport() //开启访问Hive数据, 要将hive-site.xml等文件放入Spark的...

2018-07-03 20:57:22 19680

原创 对BitMap和布隆过滤器的理解

BitMap将每一个元素映射到一个Byte[]数组, 那么判断每个元素是否存在于一个数据集时, 直接用下标获取标记位进行判断即可 ○○ [] ●○ [1] ○● [2] ●● [1,2]布隆过滤器当我们允许一定的误差, 比如让 1,3 可以都映射到Byte[]数组中的同一个位置, 那么 ○○ [] ●○ 可能是 [1] 或者 [3] 或者 [1,3] ○● [2] ...

2018-07-02 21:06:57 914

原创 ElasticSearch常用查询入门

1. 索引1.1 创建索引PUT /my_index?prettyGET /_cat/indices?v2. 写入2.1 新增文档PUT /my_index/_doc/1{ "field_0" : "a", "field_1" : ["red"]}2.2 更新单个文档//普通更新POST /my_index/_doc/1/_update{ "doc" : {...

2018-06-29 20:44:42 143

原创 通过Hive自带的jar包生成Hbase的Hfile

1. hive建表set hive.execution.engine=mr;set hfile.compression=gz;add jar hive-hbase-handler-version.jar; create table my_hbase_table(key string, cf_0_c0 string, cf_0_c1 string, ...)stored asINPUTF...

2018-06-29 20:34:48 2716 1

原创 Flask实现异步服务器

Flask的服务, 默认是同步的, 所以以下代码, 在接收多个请求是会发生阻塞: # -*- coding: utf-8 -*-from flask import Flaskimport requestsimport randomfrom datetime import datetimeapp = Flask(__name__)urls = ['https://www.python.o...

2018-06-29 20:07:55 2700 1

原创 怎么理解Tableau的维度和度量

刚接触Tableau不久的人,可能不怎么了解维度和度量的意思,或者只了解个大概.下面我用我的理解来比喻这两个概念.这是一份数据如果这份数据比喻成一块豆腐或者蛋糕,那么维度就是一把切刀,可以把数据横着切,纵着切(取决于你放到列,或者行)用类别,纵切成三份再用细分,横切三刀,变六份而度量就是用来计算切出来的每一块的大小,面积,重量这就是度量和维度.理解了这两个概

2017-02-23 21:33:55 17014 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除