自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Spark学习

Spark原理、架构、组件学习。

  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 排序 Java实现

排序定理:通过交换相邻元素进行排序的任何算法平均需要O(N2)O(N2)O(N^2)插入排序插入排序就是从数组下标为1的数字开始,取出当前下标的数字(tmp = a[j]),然后和下标之前的数字按照逆序一一比对。插入排序保证从位置0到位置j上的元素都是已排序状态。在插入排序中,逆序对数即是算法执行的交换次数。 时间复杂度(假设要进行升序操作): 最佳情况就是(升序排序)...

2018-03-16 21:36:08 159 1

原创 Spark 共享变量

Spark共享变量。 Spark是分布式计算框架,即是多机器集群部署。在Driver提交Application的时候,Spark会将这个Application里面的操作函数以及变量通过远程网络传输到集群中的每个节点上,然后由每个节点单独运算。其中变量的更新并不会传回Driver程序。这样就带来一个问题,如果有一个变量是需要全局保持统一(只读的),如果公共配置文件,那么就会在所有的节点中都复制一...

2018-03-12 09:39:59 318

原创 Spark shuffle流程细则

hadoop中的shuffle存在map任务和reduce任务之间,而spark中的shuffle过程存在stage之间。shuffle操作分为两种,分别是写操作和读操作。shuffle的写操作包括两种,分别是基于哈希的shuffle操作和基于排序的shuffle写操作。在spark1.2版本之前,采用基于哈希的shuffle操作,1.2版本之后采用基于排序的shuffle写操作。 基于哈...

2018-03-11 19:14:02 1798

原创 MySQL 创建表

1.创建表时,最后一个字段的最后一定不要加‘,’(逗号),否则会提示ERROR 1064 (42000):You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ')' at line

2016-12-15 19:22:08 445

原创 Java之动态绑定

动态绑定就是多态。Class1继承了Class2,Class2继承了Class3,一直到Class[n-1]。定义Class1的对象。Class1 class1Test = new Class1(); class1Test.funtionName();编译器就会从Class1开始寻找这个方法,如果在Class1中不存在,就会去Class2中寻找,直到找到为止,然后执行此方法。A a =new B(

2016-11-25 15:02:03 186 1

原创 weka数据挖掘之预处理

weka数据挖掘之预处理数据挖掘是在大量的、潜在有用的数据中挖掘出有用模式的过程,因此,源数据的质量直接影响到挖掘的效果,高质量的数据是有效挖掘的前提。但是,肯定是,不是所有的数据都是那么理想。由于无法在数据的源头进行控制质量,所以只能通过两个方面设法避免数据质量的问题: (1)数据质量问题的检测和纠正。 (2)使用能容忍低质量数据的算法。 第一种方式发生在数据挖掘前,

2016-11-24 20:58:58 1958

微软的梦工厂

微软的梦工厂:多位技术大佬的思想聚合(随随便便大于50个字节)

2018-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除