- 博客(10)
- 收藏
- 关注
原创 Spark入门一:RDD原理(二)
铺垫 在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数据共享只有一个办法,就是将其写到一个稳定的外部存储系统,如分布式文件系统。这会引入数据备份、磁盘I/O以及序列化,这些都会引起大量的开销,从而占据大部分的应用执行时间。所以我们发现如...
2019-02-13 18:58:45 412
原创 Spark入门一:RDD原理(一)
RDD是什么 RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 为什么会产生RDD 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作...
2019-02-13 18:50:51 274
转载 Hadoop yarn中Scheduler资源调度器
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。双层调度框架:RM将资源分配给AM,AM...
2019-01-05 20:25:14 495
原创 try-catch-finally执行顺序总结
1、在没有异常的情况下,try 中的返回值先保存到临时区域里再去执行finally ,这个finally 有返回值,这个返回值将之前try中的保存到临时区域的值用返回的这个值替换,再将这个临时区域中的值返回给上一级方法。2、如果有异常,则执行catch中的代码,这里的return 将返回一个返回值放到临时区域,再去执行finally ,这个finally有返回值,这样就将catch中存在临时区...
2018-12-03 16:02:52 1315
原创 java异常的处理和总结
JAVA基础——异常详解阅读目录一、异常简介 二、try-catch-finally语句 三、throw和throws关键字 四、java中的异常链 五、结束语JAVA异常与异常处理详解一、异常简介什么是异常?异常就是有异于常态,和正常情况不一样,有错误出错。在java中,阻止当前方法或作用域的情况,称之为异常。java中异常的体系是怎么样的呢?1.Jav...
2018-12-03 16:00:00 1027
转载 java8 lambda表达式例子
定义1个Apple对象:public class Apple { private Integer id; private String name; private BigDecimal money; private Integer num; public Apple(Integer id, String name, BigDecimal money, ...
2018-11-05 17:40:37 374
原创 List比较内容是否相同
List比较内容是否相同最近工作中用到了两个list对象的内容比较是否相同,本来觉得这是一个很简单的比较,但是后面进坑了,现在做一个反思,在此总结一下。原需求是比较两个list对象,对象的具体定义如下:做了一个实验:发现两个list竟然不相等。不服气,查看了网上的姿势,里面各种List的例子,就仿照着试了一下:"=="要求太严,equals试一下:equals可以了。最后的解决...
2018-10-18 15:37:54 2421 1
原创 maven 编译问题解决以及配置多jdk方法
今天做项目,使用 mvn clean install 指令对maven进行编译时遇到如下问题:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.2:compile (default-compile) on project dt-titan_web-common: Fatal error compi...
2018-06-19 17:25:56 1848
转载 HyperLogLog算法详解
基数计数基本概念基数计数(cardinality counting)通常用来统计一个集合中不重复的元素个数,例如统计某个网站的UV,或者用户搜索网站的关键词数量。数据分析、网络监控及数据库优化等领域都会涉及到基数计数的需求。 要实现基数计数,最简单的做法是记录集合中所有不重复的元素集合S_uSu,当新来一个元素x_ixi,若S_uSu中不包含元素x_ixi,则将x_ixi...
2018-03-28 19:51:10 5308
转载 Java堆、栈、方法区、常量池(转载)
一 jvm运行时数据区有哪些我们先来看一张图 JVM运行时数据区分类 1. JVM栈 (Java Virtual Machine Stacks) 2. 堆内存 (Heap Memory) 3. 方法区 (Method Area) 4. 本地方法栈 (Native Method Stacks) 5. 程序计数器 (Program Counter (PC) Regi
2017-08-29 12:00:19 325
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人