【GUAVA】集合(可删除)

一 不可变集合

2019-02-21 22:39:46

阅读数 28

评论数 0

guava基本工具(可删除)

一 使用和避免null 1.Optional Guava用Optional表示可能为null的T类型引用。一个Optional实例可能包含非null的引用(我们称之为引用存在),也可能什么也不包括(称之为引用缺失)。它从不说包含的是null值,而是用存在或缺失来表示。但Optional从不会包含n...

2019-02-21 18:24:38

阅读数 25

评论数 0

【大数据】SparkSQL

一 前言 1.hive 把sql转化为mapreduce 缺点:底层是mapreduce,效率不高,后来做了改进,可以跑在tez,spark,mapreduce上面 2.shark hive跑在spark上面 shark缺点:hive hql解析,逻辑执行计划生成依赖于hive的,仅仅把物理执行从...

2019-02-19 00:02:52

阅读数 25

评论数 0

【尚学堂】Spark笔记(实时增删)

spark比mapreduce快100倍,即使降级到硬盘,也要快10倍。 因为spark有高级DAG执行引擎,它支持循环数据流和基于内存的计算。 它会把有向无环图进行切割。 提供了超过80个算子操作,常用的也就20多个。 它可以访问各种各样的数据源,比如hdfs,hbase等等。 什么是spark...

2019-02-18 23:30:38

阅读数 69

评论数 0

Void类(可以删除)

通过Void源码可知,Void不可以继承和实例化 Void类是一个不可实例化的占位符类,如果方法返回值是Void类型,那么该方法只能返回null类型。 public final class Void { /** * The {@code Class} object repres...

2019-02-15 14:25:01

阅读数 27

评论数 0

JAVA abstract-document

首先我们来看UML图 什么时候使用abstract-document 1.在运行中添加新的属性 2. 3.松耦合系统 在分析代码前先看一些语法

2019-02-15 14:24:01

阅读数 39

评论数 0

【大数据】Spark DAG

一 什么是DAG DAG(Directed Acyclic Graph)有向无环图。 二 sparkDAG spark中rdd经过若干次transform操作,由于transform操作是lazy的,因此,当rdd进行action操作时,rdd间的转换关系也会被提交上去,得到rdd内部的依赖关系,...

2019-02-14 14:19:58

阅读数 55

评论数 0

【JAVA】JAVA回调

一般我们A调用B,可以有三种方式 1.同步 2.异步 3.回调 我们这里讲讲回调 假设我们这里老师和学生,老师需要等学生回答完问题,那么就可以这样子: 老师实现接口: public interface Callback { void callBack(int answer); } 老...

2019-02-12 22:47:58

阅读数 17

评论数 0

Hive优化

一 fetch task 开启fetch task如果没有函数和排序就不会触发mapreduce 把hive.fetch.task.conversion设置成more 二 本地模式 大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是...

2019-02-12 17:31:00

阅读数 29

评论数 0

ES

开源搜索引擎,采用JAVA编写,提供restful api,支持横向扩展和PB级搜索。 场景: 海量搜索,每天有海量日志,比如几百TB,可以用ES 站内搜索引擎 数据仓库,可以存储PB级别的结构化和非结构化数据 ES版本 1.x .2x 5.x 尽量选择最新的 安装: json结构 head插件安...

2019-02-11 23:25:09

阅读数 20

评论数 0

hive书笔记(可删除)

一 基础知识 hive提供了一个Hive查询语言的SQL方言,来查询存储在hadoop集群中的数据。 hive可以将大多数的查询转换为mapreduce任务(job) hive最适合静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。 hive不支持记录级别的更新。不支持事务,...

2019-02-08 23:58:55

阅读数 24

评论数 0

【大数据】hadoop之HDFS(可删除)

hadoop的功能和优势 1.开源 2.分布式存储 3.分布式计算 核心 hdfs 分布式文件系统 mapreduce 并行处理框架 可以PB级数据处理。 优势 1.高扩展 2.低成本 3.成熟的生态圈 hadoop生态系统和版本 比如hive ,降低hadoop门槛。 ...

2019-02-04 10:02:26

阅读数 27

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭