大数据
文章平均质量分 82
AndysCat
这个作者很懒,什么都没留下…
展开
-
Beam系列一 Beam介绍及简单使用.md
1.简介简单地说,Apache Beam是一个实时处理、流处理的大数据框架,由Google DataFlow贡献给 Apache 基金会孵化而来。2.应用场景以下为应用场景的几个例子:1.Beam 可以用于 ETL Job 任务Beam 的数据可以通过 SDKs 的 IO 接入,通过管道可以用后面的 Runners 做清洗。2.Beam 数据仓库快速切换、跨仓库由于 Beam 的数据...原创 2018-12-13 19:56:32 · 4396 阅读 · 0 评论 -
Beam分词计数.md
1.PCollection.apply介绍在文章开始之前,先来介绍下PCollection.apply方法:public OutputT apply(String name, PTransform<? super PCollection, OutputT> t) {return Pipeline.applyTransform(name, this, t);}第二个参数是B...原创 2018-12-14 17:11:10 · 227 阅读 · 0 评论 -
如何判断一个元素在亿级数据中是否存在?
1.前言最近有朋友问我这么一个面试题目:现在有一个非常庞大的数据,假设全是 int 类型。现在我给你一个数,你需要告诉我它是否存在其中(尽量高效)。需求其实很清晰,只是要判断一个数据是否存在即可。但这里有一个比较重要的前提:非常庞大的数据。2.常规实现不考虑这个条件,我们脑海中出现的第一种方案是什么?我想大多数想到的都是用 HashMap 来存放数据,因为它的写入查询的效率都比较...转载 2018-12-27 20:03:11 · 176 阅读 · 0 评论