自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 随笔:Java内部类小结

内部类内部类成员可以直接访问外部类的私有数据,因为内部类被当成其外部类成员,同一个类的成员直接可以互相访问。但外部类不能访问内部类的实现细节,例如内部类的成员变量。内部类与外部类的语法大致相同,但是有两点区别:内部类比外部类可以多使用三个修饰符:private,protected,static非静态内部类不能拥有静态成员。成员内部类成员内部类是一种与成员变量、方法、构造器...

2017-03-29 22:15:00 126

转载 随笔:多线程的碎碎念

这次举一个例子来记录如何使用多个锁来加快程序运行速度,下面是基本的程序:class Worker { private int count1 = 0; private int count2 = 0; public void stageOne() { try { Thread.sleep(1); } catch...

2017-03-29 21:14:00 142

转载 一些算法的MapReduce版本总结

K-Means算法K-Means的算法还是比较容易理解的,也很直观。有一批数据,需要把它聚类成K个类别。首先随机获得K个初始样本点作为聚类中心(这里就使用最简单的获得初始点的方法),然后在每一次迭代中,对于每个样本点计算离哪个聚类中心更近,就把它归到这个类别中,这样讲所有的样本点都归类到某一个类别中,接着计算每一个类别的新的聚类中心,对这K个新的聚类中心再一次进行迭代计算。收敛的条件...

2017-03-14 16:28:00 146

转载 剖析随机森林

写在前面随机森林是在机器学习中比较常用,简单,效果又很好的学习算法。在上一篇博文中,我使用了随机森林来预测泰坦尼克号的幸存者,但是没有具体地调参数来使算法获得更好的性能。我觉得只有更好地理解算法的原理,才能从本质上知道参数该如何调比较好,所以写下这篇博文来记录随机森林的原理要点。前提知识BootstrappingBootstrapping俗称“自助法”,常常在数据集较小的时候使用...

2017-01-07 20:13:00 190

转载 基于MapReduce的大矩阵乘法(Spark实现)

矩阵-向量乘法实现\[x_i=\sum_{j=1}^nm_{ij}v_{j}\]Map函数Map函数应用于M的一个元素,但是如果执行Map任务的计算节点还没有将v读到内存,那么首先以一个整体的方式读入v,然后v就可以被该Map任务中执行的Map函数所用。每个Map任务将整个向量v和矩阵M的一个文件块作为输入。对每个矩阵元素\(m_{ij}\),Map任务会产生键值对\((i,m_{...

2016-12-28 16:01:00 321

转载 使用spark进行机器学习之泰坦尼克号幸存者

这个题目是Kaggle上一道练习题,网址为https://www.kaggle.com/c/titanic,在官方教程中,提供了R,Python,Excel的解决方法。最近在学习Spark,感觉这个题目可以很好地练习Spark的相关模块,例如SQL,ML等。所以写下了这个博客来记录这个解决方法的流程,这个解决方法只是比较粗略的,没有再持续地改进,包括特征选取,参数选择等等。本篇博文主要是...

2016-12-28 16:01:00 1096

转载 Spark源码解读系列--SparkContext的初始化(1)

Spark源码解读系列主要是基于《深入理解Spark--核心思想与源码分析》这本书的,另外加上我个人的补充,由于自己也是Spark的初学者,所以暂时不能解读源码背后的设计思想,只能结合书来解读源码的逻辑和功能。SparkContext的初始化是Driver应用程序提交执行的前提,以下内容将会以local模式,代码顺序进行讲解。SparkConfSparkContext的配置参数是由...

2016-12-05 12:33:00 91

转载 Spark设计理念与基本架构

Spark设计理念与Hadoop密不可分,它解决了Hadoop中的一些缺陷,先来看看Hadoop的缺陷。Hadoop MapReduce v1的局限MRv1都封装在mapred包中,其中Map和Reduce是通过接口实现的。它包括三个部分:运行时环境(JobTracker和TaskTracker)变成模型(MapReduce)数据处理引擎(Map任务和Reduce任务)不...

2016-12-02 19:01:00 135

转载 Learning Spark阅读笔记4

Spark编程进阶两种类型的共享变量:累加器:用来对信息进行聚合。广播变量:用来高效分发较大的对象。数据介绍:使用业余无线电操作者的呼叫日志作为输入,构建出一个完整的示例应用。这些日志中至少包含联系过的站点的呼号。呼号是由国家分配的,每个国家都有自己的呼号号段。有一些呼叫日志也包含操作者的地理位置,用来帮助确定距离。示例:{"address":"address here",...

2016-12-01 14:06:00 88

转载 Learning Spark阅读笔记3

Loding and Saving Your Data主要介绍Spark对于下面3类数据源的处理:File formats and filesystemsStructured data sources through Spark SQLDatabases and key/value storesFile FormatsSpark可以很容易地加载存储很多文件格式,从非结构化...

2016-12-01 10:33:00 112

转载 图的三角形计数

需求:输入一份社交图谱,每行是两个ID,中间用空格分开,代表这两个人有联系,组成一个无向图,计算这个无向图中三角形的个数。首先我需要将输入文件转化成一个无向图,这个比较简单,使用map操作将两个ID提取出来,如果两个ID相同,说明自己指向了自己,那么舍弃掉这个输入,map的输出在传递给reduce前会将相同key的值排序组成一个列表,这样我们就有了表示无向图的邻接表。相应的map部分...

2016-11-24 19:01:00 862

转载 Learning Spark阅读笔记2

Working with Key/Value PairsKey/Value RDDs通常被用来执行aggregations,我们经常会做一些初始化ETL(extract, transform, load)来得到我们的key/value数据。使用可控制的partitioning,应用程序能够减少通信消耗通过确保数据同时被访问到,在同一个节点上。Creating Pair RDDs有...

2016-11-22 16:09:00 77

转载 Learning Spark阅读笔记1

Programming with RDDs一个RDD就是一个分布式的元素集合,在Spark中,所有的工作可以表示为要么创建新的RDDs,要么转换现有的RDDs,要么在RDDs上操作计算结果。Spark会自动地分布你的数据到集群上,并行地计算。RDD基础每个RDD分成很多partitions,这些partitions可能在集群的不同节点上。用户创建RDDs有两种方式:加载外部的...

2016-11-18 11:27:00 95

转载 Java 内存模型与线程

硬件的效率与一致性计算机的存储设备与处理器的运算速度有几个数量级的差距,所以现代计算机系统都不得不加入一层读写速度尽可能接近处理器运算速度的高速缓存(Cache)来作为内存与处理器之间的缓冲:将运算需要使用到的数据复制到缓存中,让运算能快速进行,当运算结束后再从缓存同步回内存之中,这样处理器就无须等待缓慢的内存读写了。缓存一致性对于增加缓存的设计,将会引入缓存一致性的问题,每个处理...

2016-11-06 22:20:00 69

转载 倒排索引的一些扩展探讨

这篇文章将会从倒排索引的例子逐渐深入地介绍hadoop mapreduce的一些操作。倒排索引对于倒排索引的介绍,网上有很多的介绍和相关的程序,在本文中就不会详细介绍,但是会给出相关代码,这些代码将会展示hadoop mapreduce的基本操作,在接下来的内容中,将会基于这些代码进行扩展,以熟悉mapreduce的一些程序设计。Mapmap操作主要是读取文本文件的每一行...

2016-11-06 12:59:00 161

转载 Java集合类HashMap源码解析

Note:HashMap继承自AbstractMap类,实现了Map接口,Cloneable接口,Serializable接口。AbstractMap类是个抽象类,定义了Map最常用的方法,可以看做是接口Map的最小类实现。HashMap是基于哈希表实现的,而另一个Map接口实现类TreeMap是基于红黑树的。以下是对部分源码的解析:1 static final int ...

2016-10-02 20:49:00 60

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除