DistributionSystem
文章平均质量分 76
zealscott
https://tech.zealscott.com
展开
-
MapReduce处理系统
MapReduce:a Batch Processing SystemMPIMPI是一个信息传递应用程序接口,包括协议和和语义说明。是为了处理进程间通讯的协议。问题:在MapReduce出现之前,已经有像MPI这样非常成熟的并行计算框架了,那么为什么Google还需要MapReduce?这是因为,传统并行计算框架基本上都还是在单机上,为了保证不易宕机,一般都选择昂贵的刀片服务器...原创 2018-10-01 17:14:43 · 615 阅读 · 0 评论 -
Yarn框架下的系统部署
使用yarn部署hadoop和spark使用Yarn本地部署Hadoop修改配置文件首先修改mapred-sit.xml文件:cd /usr/local/hadoop/etc/hadoopmv mapred-site.xml.template mapred-site.xml修改为:<configuration> <property> <nam...原创 2018-11-13 09:59:42 · 1313 阅读 · 0 评论 -
ZooKeeper配置及简单使用
安装并使用ZooKeeper API对Znode进行控制。Zookeeper配置下载zookeeper首先在官网下载zookeeper:wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar.gz解压:sudo tar xzvf zookeeper-3.4.13.tar...原创 2018-11-11 10:58:48 · 7069 阅读 · 0 评论 -
流计算系统概述
介绍流计算系统的基本概念。流计算应用需求静态数据很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。OLTP:主要面向事务处理(数据库)OLAP:数据仓库基于HDFS的数据仓库:Hive流数据近年来,...原创 2018-11-11 22:25:40 · 2125 阅读 · 0 评论 -
Storm部署与运行
部署Storm集群。环境配置Strom下载首先从官网下载Strom压缩包,这里以最新的Strom1.2.2作为演示。解压到/usr/local:sudo tar xzvf apache-storm-1.2.2.tar.gz -C /usr/local查看解压文件:需要重命名:sudo mv /usr/local/apache-storm-1....原创 2018-11-20 11:33:06 · 1441 阅读 · 0 评论 -
Flink安装及使用
本地部署安装在官网安装Flink,并解压到/usr/local/flinksudo tar -zxf flink-1.6.2-bin-hadoop27-scala_2.11.tgz -C /usr/localcd /usr/local修改文件名字,并设置权限sudo mv ./flink-*/ ./flinksudo chown -R hadoop:had...原创 2018-12-04 10:06:50 · 4160 阅读 · 0 评论 -
SparkSteaming使用
SparkSteaming使用环境设置首先确保已经按安装Spark,使用maven构建工程。在pox.xml中添加:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/...原创 2018-11-28 16:27:50 · 638 阅读 · 0 评论 -
Flink编程练习(二)
Map班级学生成绩的随机生成输入:本班同学的学号输出:<学号,成绩>数据准备首先需要一个stuID.csv文件,每一列为一个学号:然后将文件放入HDFS中:hdfs dfs put stuID.csv input编写程序import org.apache.flink.api.common.functions.MapFunction;impo...原创 2018-12-18 08:17:23 · 2216 阅读 · 0 评论 -
批流融合系统-SparkV2/Beam
介绍目前还在推进的批流融合系统-SparkV2/BeamSparkV2回顾Feature在第一代的Spark Streaming系统中,其主要特点为:以批处理核心,使用micro-batch模型将流计算转换为批处理流计算和批处理API可以互用DStream(特殊的RDD)RDDSpark Streaming局限性Spark streaming难以处理的需求Eve...原创 2018-12-23 20:51:30 · 992 阅读 · 0 评论 -
分布式图处理系统--Pregel
介绍分布式图处理系统–Pregel以及其开源实现–Giraph图数据处理简介图数据的应用图数据数据本身以图的形式呈现社交网络传染病传播途径交通路网某些非图结构的数据,也可以转换为图模型后进行处理网页链接机器学习训练数据关联性分析图数据结构表达了数据之间的关联性通过获得数据的关联性,抽取有用的信息购物通过为购物者之间的关系建模,就能很快找到口味相似的...原创 2018-12-24 10:20:15 · 2128 阅读 · 0 评论 -
Giraph配置及使用
环境配置Hadoop配置这里使用Hadoop2.5.1进行配置,可以参考这里。查看版本号运行Hadoop./hadoop-2.5.1/sbin/start-dfs.sh查看是否成功Giraph配置下载Giraphcd /usr/localsudo git clone https://github.com/apache/giraph.gitsudo chown -R ha...原创 2018-12-25 10:21:40 · 991 阅读 · 0 评论 -
机器学习系统--Parameter Server
介绍分布式机器学习系统架构-- Parameter Server。GraphLab简介是一个以参数为中心的机器学习系统。Observations某些learning算法的模型复杂,参数很大Complex Models with Billions and Trillions of Parameterse.g. LDA某些Learning过程呈现线性,需要同步Sequent...原创 2019-01-04 20:06:03 · 291 阅读 · 0 评论 -
常用图算法实现--Hadoop
常用图算法在Hadoop上的实现PageRank数据准备边:1 21 152 32 42 52 62 73 134 25 115 126 16 76 87 17 88 18 98 109 149 110 110 1311 1211 112 113 1414 1215 1网页:1 22 53 1 4 15 26 37...原创 2019-01-03 09:41:06 · 581 阅读 · 0 评论 -
常用图算法实现--Spar
使用Spark实现PageRank,强连通分量等图算法PageRank数据准备边:1 21 152 32 42 52 62 73 134 25 115 126 16 76 87 17 88 18 98 109 149 110 110 1311 1211 112 113 1414 1215 1网页:12345678...原创 2019-01-03 09:41:56 · 385 阅读 · 0 评论 -
常用图算法实现--Flink
使用Flink实现PageRank、强连通分量、单源最短路径、二分图匹配…PageRank主要参考官网的example算法流程每次计算当前每个网页的转移概率,计算下一时刻到达每个网页的概率并加入随机跳转数据准备pages.txt准备一些顶点,例如1-15links.txt准备一些连接边(也就是链接数):1 21 152 32 42 52 62 73 134 2...原创 2019-01-03 09:43:12 · 1899 阅读 · 0 评论 -
Yarn资源管理框架
简单介绍Yarn。背景介绍MapReduce v1JobTrackerManage Cluster Resources & Job SchedulingTaskTrackerPer-node agentManage Task其中,JobTracker承担了太多的任务作业管理状态监控,信息汇总任务管理调度,监控资源管理MapRe...原创 2018-11-04 11:59:51 · 500 阅读 · 0 评论 -
ZooKeeper元数据管理系统
简单介绍ZooKeeper。背景介绍HDFS1.0名称节点保存元数据:在磁盘上FsImage和EditLog在内存中映射信息,即文件包含哪些块,每个块存储在哪个数据节点单点故障SecondaryNameNode会定期和NameNode通信从NameNode上获取到FsImage和EditLog文件,并下载到本地的 相应目录下执行EditLog和FsI...原创 2018-11-04 11:41:44 · 2437 阅读 · 0 评论 -
Distribution File System DFS
以HDFS为例,介绍分布式文件系统。文件系统文件系统的功能文件的按名存取(基本功能)文件目录的建立和维护(用于实现上述基本功能)实现逻辑文件到物理文件的转换(核心内容)文件存储空间的分配和管理数据保密、保护和共享提供一组用户使用的操作文件文件是由文件名字标识的一组信息的集合各操作系统的文件命名规则略有不同实现按名存取的文件系统的优点将用户从复杂的物理存储地址管理...原创 2018-10-01 22:37:30 · 298 阅读 · 0 评论 -
hadoop安装与配置
安装并使用多种方法配置Hadoop。准备创建Hadoop用户创建新用户sudo useradd –m hadoop –s /bin/bash设置密码sudo passwd hadoop增加管理员权限sudo adduser hadoop sudo最后,切换到该用户进行登录SSH登录权限设置配置SSH的原因Hadoop名称节点(NameNode)需要...原创 2018-09-26 13:48:07 · 354 阅读 · 0 评论 -
RPC and serialization
Socket and RPC implement.Implement can be seen there.Socketusing TCPTCP (Transmission Control Protocol) is a standard that defines how to establish and maintain a network conversation via which ...原创 2018-09-20 21:02:46 · 141 阅读 · 0 评论 -
RPC in Java
Implement Socket and RPC in Java.SocketTCP基于TCP的Socket通信,实现前后端通信服务器端服务器端需要先运行,指定监听端口,等待客户端接入package TCP;import java.io.*;import java.net.ServerSocket;import java.net.Socket;public clas...原创 2018-09-20 21:03:45 · 123 阅读 · 0 评论 -
hadoop编程实践(二)
集群上使用jar包首先将之前FileExist文件进行打包,得到.jar文件:将其拷贝到集群中,并使用hadoop jar命令运行:WordCount添加依赖首先我们需要新建一个WordCount项目,首先要添加Hadoop的包依赖/usr/local/hadoop/share/hadoop/commonhadoop-common-xxx.jarhad...原创 2018-10-12 15:24:16 · 365 阅读 · 0 评论 -
hadoop编程实践(一)
Hadoop操作基础与IDE环境配置。Hadoop操作目录操作在操作之前,需要在hadoop根目录下创建与Linux用户同名的user目录./bin/hdfs dfs -mkdir -p /user/hadoop之后,所有的文件都默认放入这个目录下面,很多命令与Linux命令一致,比如查看当前文件夹:这个input是这样创建的:./bin/hfs dfs -mkdi...原创 2018-09-30 15:56:18 · 4404 阅读 · 3 评论 -
MapReduce编程
MapReduce Coding Criteria单个MapReduce单元运算以WordCount为例分别编写Map和Reduce函数编写main方法,设置环境变量,进行注册:二元编程Join对于 input,来自不同的关系表,对于MapReduce而言都是文件在Map过程中,需要标记来自哪个关系表把来自 R的每个元组 <a,b >转换...原创 2018-10-09 14:19:58 · 278 阅读 · 0 评论 -
Spark处理框架
Spark:an unified analytics engine for large-scale data processingSpark VS MapReduceMapReduce implementation principles对于一个MapReduce作业来说,大致操作为:可以发现,其主要的改变就是文件内容的变化中间结果需要写磁盘,开销非常大Hadoop...原创 2018-10-20 20:50:01 · 491 阅读 · 0 评论 -
Spark编程
介绍Spark编程的结构,以及Spark SQL。Spark shellSpark Shell 提供了简单的方式来学习Spark APISpark Shell可以以实时、交互的方式来分析数据Spark Shell支持Scala和Python一个Driver就包括main方法和分布式数据集Spark Shell本身就是一个Driver,里面已经包含了main方法Spark RDD...原创 2018-10-20 21:07:45 · 528 阅读 · 0 评论 -
[Hadoop][distributed cache] java.lang.Exception: java.io.FileNotFoundException:
在hadoop2.7.3版本中,使用distributed cache时,如果使用新的API:URI[] cacheFiles = context.getCacheFiles();则会提示java.lang.Exception: java.io.FileNotFoundException:我估计是这个版本的bug,建议大家还是使用老的APIString localCacheFiles ...原创 2018-10-26 16:14:14 · 502 阅读 · 0 评论 -
Spark编程实践
使用Scala和Java编写Spark程序。Spark编程Scala实现sbt首先安装sbtunzip sbt-1.2.6.zip -d /usr/local/ 赋予权限sudo chown –R hadoop /usr/local/添加进环境变量PATH中vim ~/.bashrc。执行sbt version看是否安装成功,此时会下载一些依赖,确保联网。编程在/...原创 2018-10-26 20:19:53 · 474 阅读 · 0 评论 -
Spark安装与配置
安装并使用Spark。安装Spark首先在官网上安装对应版本,因为已经安装了hadoop,选择without hadoop版本。执行解压、修改文件名、配置文件等操作:sudo tar -zxf spark-2.3.2-bin-without-hadoop.tgz -C /usr/local cd /usr/localsudo mv ./spark-2.3.2-bin-without-...原创 2018-10-31 14:54:57 · 515 阅读 · 0 评论 -
使用docker安装Hadoop和Spark
使用docker配置安装hadoop和spark分别安装hadoop和spark镜像安装hadoop镜像选择的docker镜像地址,这个镜像提供的hadoop版本比较新,且安装的是jdk8,可以支持安装最新版本的spark。docker pull uhopper/hadoop:2.8.1安装spark镜像如果对spark版本要求不是很高,可以直接拉取别人的镜像,若要求新版本,则需要...原创 2018-11-03 16:29:41 · 1175 阅读 · 0 评论 -
使用docker搭建spark(2.3.1)集群
使用Docker快速搭建Spark集群。创建Spark集群首先在命令行下载该项目:git clone https://github.com/gettyimages/docker-spark.git在该目录下,输入compose up:等待安装,最后会提示Worker和master都准备好了:在浏览器中输入localhost:8080,出现如下界面...原创 2018-11-03 17:37:14 · 6066 阅读 · 1 评论 -
分布式系统 入门及实践
本学期上了分布式系统的课,主要从MapReduce框架、批处理系统代表Spark、流处理代表Flink着手介绍分布式系统的发展,并配以大量project,基本掌握了以Spark、Flink、Zookeeper为主的分布式系统框架使用及原理,希望能对分布式系统感兴趣的同学一些参考。SyllabusLectureReading Material/hintsNotes1. Pr...原创 2019-01-20 21:56:24 · 383 阅读 · 0 评论