- 博客(7)
- 收藏
- 关注
原创 数据管理系统 入门及实践
本学期上了数据管理系统这门课,主要是以关系数据库为主,并介绍现在流行的NoSQL数据库,以及分布式的NewSQL、数据库基本原理,对我而言帮助很大。下面将本学期的课程大纲以及Project分享给大家,更多内容我会在我个人博客上持续更新。SyllabusLectureReading MaterialHintsNotes1. coding- Creating Great...
2019-01-20 21:58:20 304
原创 分布式系统 入门及实践
本学期上了分布式系统的课,主要从MapReduce框架、批处理系统代表Spark、流处理代表Flink着手介绍分布式系统的发展,并配以大量project,基本掌握了以Spark、Flink、Zookeeper为主的分布式系统框架使用及原理,希望能对分布式系统感兴趣的同学一些参考。SyllabusLectureReading Material/hintsNotes1. Pr...
2019-01-20 21:56:24 413
原创 机器学习系统--GraphLab
介绍分布式机器学习系统架构GraphLab。GraphLab简介是一个以数据为中心的机器学习系统。实际中很多模型都可以转化为图的形式:社交网络推荐系统文本分析概率图模型我们之前已经有了基于BSP Model的Pregel,其主要特点是需要进行同步(双屏障),而同步是由最慢的节点决定,造成:资源的浪费(大部分节点会等待少部分节点收敛)某些算法可能并不需要同步更新某些机...
2019-01-04 20:08:08 548
原创 机器学习系统--Parameter Server
介绍分布式机器学习系统架构-- Parameter Server。GraphLab简介是一个以参数为中心的机器学习系统。Observations某些learning算法的模型复杂,参数很大Complex Models with Billions and Trillions of Parameterse.g. LDA某些Learning过程呈现线性,需要同步Sequent...
2019-01-04 20:06:03 322
原创 常用图算法实现--Flink
使用Flink实现PageRank、强连通分量、单源最短路径、二分图匹配…PageRank主要参考官网的example算法流程每次计算当前每个网页的转移概率,计算下一时刻到达每个网页的概率并加入随机跳转数据准备pages.txt准备一些顶点,例如1-15links.txt准备一些连接边(也就是链接数):1 21 152 32 42 52 62 73 134 2...
2019-01-03 09:43:12 1910
原创 常用图算法实现--Spar
使用Spark实现PageRank,强连通分量等图算法PageRank数据准备边:1 21 152 32 42 52 62 73 134 25 115 126 16 76 87 17 88 18 98 109 149 110 110 1311 1211 112 113 1414 1215 1网页:12345678...
2019-01-03 09:41:56 410
原创 常用图算法实现--Hadoop
常用图算法在Hadoop上的实现PageRank数据准备边:1 21 152 32 42 52 62 73 134 25 115 126 16 76 87 17 88 18 98 109 149 110 110 1311 1211 112 113 1414 1215 1网页:1 22 53 1 4 15 26 37...
2019-01-03 09:41:06 607
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人