张包峰的博客

Distributed Computing

阿里云数据库团队招聘

我们是全球领先的云数据库技术团队,这里有极具挑战性的岗位期待你的加盟: 阿里云-数据库技术组-分布式数据库研发工程师 岗位描述: 1.负责云数据库分布式计算引擎或者列存索引等核心模块的研发工作 2.负责提升系统的易用性、稳定性,提升资源利用率和性能。 岗位要求: 1.在分布式计算...

2016-10-18 11:23:57

阅读数:1915

评论数:0

回过头看这一年多做的事

刚才把之前写的大半年来做的计算这点事看了一遍,还是蛮感慨的。从那时到现在,又半年过去了。当时BH这层runtime正在已混布的方式与另一个集团内的OLAP系统为某项目落地而集成,具体就不谈了。截止目前,这种”狼狈”的组成形式终于比较令人满意地磕磕碰碰着落地了。年后,主要磨了系统的稳定性,在真实数据...

2016-08-03 10:44:42

阅读数:1729

评论数:0

Flink SQL 1.0+ UT Cases

Flink SQL UT Case截止当前flink master分支最新的代码(未完成的1.1版本),Flink Table项目的UT,batch sql(即直接调用.sql())的sql, logicalPlan, physicalPlan整理。/** Filter **/SELECT * F...

2016-07-11 16:13:18

阅读数:1855

评论数:0

Flink StreamSQL简介

Flink Stream SQLOverviewblog https://flink.apache.org/news/2016/05/24/stream-sql.html提到目前Table API的问题,batch和stream的API各自能支持的query不一样。 However, the ...

2016-07-01 17:28:03

阅读数:9554

评论数:0

Flink sql的实现

SQL Impl in Flink跟了下Flink Table里sql的实现,flink sql的实现比较简单,一句话概述就是:借助Apache Calcite做了sql解析、逻辑树生成的过程,得到Calcite的RelRoot类,生成flink的Table,Table里的执行计划会转化成Data...

2016-06-08 16:17:33

阅读数:8264

评论数:0

DAG vs. MPP

DAG vs. MPPNative DesignMPP每个Segment高度对称(symmetric),狭义MPP storage各个Segment自己管理,自己备份,涉及某数据相关的query必定会落到某个Segment上,有concurrency和straggler的问题存在。MPP天然有很优...

2016-05-30 15:03:14

阅读数:7292

评论数:0

Inspiration from Apache HAWQ

AspectsInterconnectUDP(User Datagram Protocol) , additional packet verification, the reliability is equivalent to TCP(Transmission Control Protocol),...

2016-05-26 15:43:31

阅读数:5321

评论数:0

Flink Runtime 1.0 Notes: Task Execution(1)

AboutI will try to give the mainline of how does Flink task works.Main classes and methods are mentioned.Format explaination this is Class this is ...

2016-05-18 15:53:00

阅读数:2820

评论数:0

Flink Runtime 1.0 Notes: Plan 2 Task

AboutI will try to give the mainline of how does Flink buildint the logical plan 2 physical plan 2 task. Main classes and methods are mentioned.Form...

2016-05-17 11:29:26

阅读数:2787

评论数:0

Gremlin实现分析

先把梳理逻辑图放着,有空分析 :)戳大 http://img.blog.csdn.net/20160412144546178Gremlin文档 http://tinkerpop.apache.org/docs/3.1.1-incubating/reference

2016-04-06 12:50:59

阅读数:3723

评论数:0

GraphX迭代的瓶颈与分析

背景测试了一个case,用GraphX 1.6跑标准的LPA算法,使用的是内置的LabelPropagation算法包。数据集是Google web graph,(忽略可能这个数据集不是很合适),资源情况是standalone模式,18个worker,每个worker起一个executor,50g...

2016-02-03 16:07:22

阅读数:4314

评论数:2

搬家与流式处理

这两天搬家,身体很劳累,脑子算是没闲着。在把货物搬上楼的过程中,我琢磨了个自认为很高效的方法,本质和流式处理很像。需求与尝试 一车货物,零零散散打了些包,停在楼下,需要搬到五楼去。劳力有三人。一开始的方案是每个人自己拿几样东西,自管自上楼去,再下楼来拿下一趟。搬了几趟后,有以下一些问题: 1....

2016-01-31 21:17:53

阅读数:1685

评论数:0

大半年来做的计算这点事

写一篇随笔,谈谈大半年来做的一些事情。简单地说,从去年三月份到现在,一直在做一个计算框架:BH,一个core。我对自己的要求是,掌握Spark(和Flink),然后忘了它。所以层面core基本和spark core的层次是一致的,核心是pipeline和DAG。开始做这件事的时候,Flink当时的...

2016-01-24 21:41:23

阅读数:3700

评论数:2

GraphX 实现K-Core

背景graphx实现k-core比较简单,参考淘宝技术部之前的文章,已经给出了一个代码片段,基本上改改就可以定制自己的需求了。codeimport org.apache.spark._ import org.apache.spark.graphx._ import org.apache.spark...

2015-08-06 17:02:28

阅读数:2697

评论数:0

GraphX 图数据建模和存储

背景简单分析一下GraphX是怎么为图数据建模和存储的。入口可以看GraphLoader的函数,def edgeListFile( sc: SparkContext, path: String, canonicalOrientation: Boolean = f...

2015-08-05 10:47:52

阅读数:4726

评论数:2

GraphX实现N度关系

背景本文给出了一个简单的计算图中每个点的N度关系点集合的算法,也就是N跳关系。之前通过官方文档学习和理解了一下GraphX的计算接口。N度关系实现思路: 1. 准备好边数据集,即”1 3”, “4, 1” 这样的点关系。使用GraphLoader 的接口load成Graph 2. 初始化每...

2015-08-04 12:19:23

阅读数:3009

评论数:3

Zookeeper ipv6的坑

问题zookeeper抛这样的错误: [main-SendThread(localhost:2000)] ERROR org.apache.zookeeper.ClientCnxn - Unable to open socket to localhost/0:0:0:0:0:0:0:1:2181...

2015-05-25 13:57:01

阅读数:3857

评论数:0

Apache Zeppelin安装及介绍

背景Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Databricks...

2015-05-23 15:46:21

阅读数:13115

评论数:1

Marathon on OS X初体验

本文描述了在OS X上安装使用Marathon的过程。Marathon简介Marathon是Mesosphere公司为Mesos生态圈打造的一个轻量级、扩展性很强的调度long-running service的调度框架。支持RESTful api来创建和管理app,自动为app做容错迁移,凡是能用...

2015-05-11 23:16:55

阅读数:3173

评论数:0

Install Docker on Mac OS X

小白来山寨一把官网文档。Docker不能直接跑在OS X上,需要先安装下VirtualBox和boot2docker。boot2docker会帮我们启动vm,启动docker,并且本身提供一些管理命令。 boot2docker也很轻量级,完全在内存里启动一个VM,只占24M大小,几秒内就可以启动...

2015-05-09 15:11:18

阅读数:3187

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭