自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (5)
  • 收藏
  • 关注

原创 Spark源码阅读笔记之Broadcast(三)

Spark源码阅读笔记之Broadcast:Broadcast的Torrent传输机制通过TorrentBroadcastFactory和TorrentBroadcast来实现的。

2015-08-13 14:38:37 1243

原创 Spark源码阅读笔记之Broadcast(二)

Spark源码阅读笔记之Broadcast:Http的传输机制是在Driver中启动Http服务,然后将需要传输的变量存储为Http服务根目录下的一个文件,当Executor中需要使用时便向Http服务请求,下载该文件,然后读取。这种机制下,所有Executor都需要向Driver请求下载,Driver的网络通信会成为瓶颈。

2015-08-13 14:29:10 1100

原创 Spark源码阅读笔记之Broadcast(一)

Spark源码阅读笔记之Broadcast:Spark会序列化在各个任务上使用到的变量,然后传递到Executor中,由于Executor中得到的只是变量的拷贝,因此对变量的改变只在该Executor有效。序列化后的任务的大小是有限制的(由spark.akka.frameSize决定,值为其减去200K,默认为10M-200K),超出该限制的任务会被抛弃。因此,对于需要共享比较大的数据时,需要使用Broadcast。

2015-08-13 14:26:05 1902

原创 Spark源码阅读笔记之MetadataCleaner

Spark源码阅读笔记之MetadataCleaner:MetadataCleaner运行定时任务周期性的清理元数据(metadata)。

2015-08-10 15:16:03 1623

原创 Spark源码阅读笔记之BlockObjectWriter

Spark源码阅读笔记之BlockObjectWriter:Spark中Hash Shuffle阶段能将多个map的结果合并到一个文件,以减少文件的数量,主要依赖于BlockObjectWriter 。BlockObjectWriter是一个接口,用来直接操作Block对应的存储容器,可以直接向存储容器中添加数据,从而实现向相应的Block中添加数据的操作。

2015-08-01 23:30:09 1115

原创 Spark源码阅读笔记之DiskStore

Spark源码阅读笔记之DiskStore:DiskStore通过DiskBlockManager来实现Block和相应磁盘文件的映射关系,从而将Block存储到磁盘的文件中。

2015-07-30 11:07:30 1289

原创 Spark源码阅读笔记之MemoryStore

BlockManager底层通过BlockStore来对数据进行实际的存储。BlockStore是一个抽象类,有三种实现:DiskStore(磁盘级别的持久化)、MemoryStore(内存级别的持久化)和TachyonStore(Tachyon内存分布式文件系统级别的持久化)。MemoryStore以反序列化后的数组或者序列化后的字节缓存(ByteBuffer)形式将Block存储到内存。

2015-07-27 10:26:11 2138

原创 Spark源码阅读笔记之BlockStore

Spark源码阅读笔记之BlockStore:BlockManager底层通过BlockStore来对数据进行实际的存储。BlockStore是一个抽象类,有三种实现:DiskStore(磁盘级别的持久化)、MemoryStore(内存级别的持久化)和TachyonStore(Tachyon内存分布式文件系统级的持久化)。

2015-07-24 11:40:57 574

原创 Spark源码阅读笔记之任务调度(一)

Spark源码阅读笔记之任务调度:应用(Application)、作业(Job)、阶段(Stage)、任务(Task)。用户写的spark程序就是一个应用,应用可以提交到集群(yarn、messos或spark原生集群)运行,一个spark应用运行期间可以执行多个spark作业,作业被分割为多个阶段,每个阶段是完成相同功能的任务的集合。

2015-07-09 14:24:23 1237

原创 Spark源码阅读笔记(RDD)(一)

Spark源码阅读笔记(RDD)(一)RDD(Resilient Distributed Dataset,弹性分布式数据集)是spark最基本的抽象,本质上是一个不可变的集合。该集合被划分为不同的分区,分区是存取的基本单元,被存储在不同机器的内存或磁盘中,作用在RDD上的函数可以在不同的分区上并行计算。

2015-07-05 14:36:55 831

jquery超炫滑动菜单

jquery超炫滑动菜单 采用jquery实现的超炫的滑动菜单

2013-03-15

机器学习(中文版)

机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能?近年来,机器学习被成功地应用于很多领域,从检测信用卡交易欺诈的数据挖掘程序,到获取用户阅读兴趣的信息过滤系统,再到能在高速公路上自动行驶的汽车。同时,这个学科的基础理论和算法也有了重大的进展。 这本教材的目标是展现机器学习中核心的算法和理论。机器学习从很多学科吸收了成果和概念,包括统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等。我相信,研究机器学习的最佳途径是从这些学科的观点看待机器学习,并且以此来理解问题的背景、算法以及其中隐含的假定。这些在以往很难做到,因为在这一领域缺少包容广泛的原始资料。这本书的主要目的就是提供这样的一份资料。

2013-03-15

自然语言处理

为中文自然语言处理而开发的java工具包,也包含为实现这些任务的机器学习算法和数据集.。数据集使用LGPL3.0许可证。 功能 信息检索:文本分类 新闻聚类 中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别 结构化学习:在线学习 层次分类 聚类 精确推理

2013-03-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除