- 博客(11)
- 收藏
- 关注
原创 毕业论文项目部署
部署 flume 下载链接 https://flume.apache.org/download.html 【flume 1.8】 Kafka https://kafka.apache.org 【kafka_2.11-1.0.0.tgz】 移动文件 ~/Downloads $ tar zxvf apache-flume-1.8.0-bin.tar.gz ~/Downloads $ mv apache-flume-1.8.0-bin /usr/local #注意root执行 ~/Downloads $ ta
2022-03-02 16:14:36
1662
原创 Dijkstra
已知n个结点的有向图G=(V,E)和边的权函数C(e).求G中v0到其他各结点的最短路径。 最优度量标准:每次选择与v0最短路径的结点 dijkstra算法: 设有两个顶点集合S和V,S中存放图中已找到最短路径的顶点,V存放图中剩余结点; (1)初始化:集合S初始为{0},dist[]的初始值为dist[i]=arc[0][i],i=1,2…n-1 (2)从顶点集合V-S中选出Vj,满足dist[j]=min{dist[i],i <=V-S} ,Vj就是当前求得的一条从V0出发的最短路径的终点,令S=
2020-09-28 18:50:36
83
原创 最小生成树
1.基本概念 带权连通无向图G=(V,E), 生成树不同,每棵树的权重也不同,设R是G的所有生成树的集合,若T是R中权值之和最小的那一颗,那T就是G的最小生成树 一个有n个结点的连通图的生成树是原图的极小连通子图,且包含原图中的所有n个结点,并保持图连通的最少的边 生成树恰好有|V|-1 条边 2.Prim(普利姆)算法 从已有顶点中选择权值最小的边加入 初始化:向空树T=(V,E)中添加G=(V,E)的任一顶点u,使得Vt={u}, E!=NULL 循环(直到Vt=V):从Vt的一个顶点出发中选择一个具有
2020-09-28 18:50:04
109
原创 动态规划dp
与分治算法相似,通过组合子问题的解来求解原问题 分支方法将问题划分为互不相交的子问题,递归地求解子问题,再将他们组合起来,求出原问题的解 动态规划应用于子问题重叠的情况,即不同的子问题具有公共的子子问题,在这种情况下,分治算法会做许多不必要的工作反复求解公共子子问题,动态规划则是对每个子子问题只求解一次,将其解保存在一个表格中,从而无需每次求解一个子子问题时都重新计算 动态规划通常用来求解最优化问题,这类问题有很多可行解,每个解都有一个值,希望寻找具有最优值的解 4个步骤设计一个动态规划算法: 1.刻画一个
2020-09-28 18:49:34
115
原创 HDFS概述
1.在HBase随机读写改进 HDFS也是块【但比普通文件系统大很多64-128M】 支持大规模数据存储 降低分布式节点的寻址开销 块过大了会导致MapReduce只在一俩个块中进行任务,导致并行度降低 HDFS俩大组件,分为名称节点,数据节点 名称节点为整个HDFS集群的管家,记录信息,相当于数据目录,为主节点 数据节点,存储实际数据 名称节点分为FsImage,EditLog FsImage用于保存系统文件树(不维护,文件存储在哪个节点、块上,这是由内存上来处理的,名称节点的元数据内容都是保存在内存里的
2020-09-28 18:48:44
78
原创 大数据架构
处理架构:Hadoop 开源分布式计算平台,极大降低计算复杂性,提供简单傻瓜式接口,Java开发 支持多种编程语言,c\c++\java\python,跨平台 俩大核心 HDFS+MapReduce——分别解决分布存储和处理 03,google提出分布式文件系统GFS(Google File System) 04,google提出分布式并行编程框架MapReduce 初始效率 910节点对1TB用了209s 冗余副本机制,提供高可靠性(一点故障有备份) 高效率性 可扩展性,不断增加 高容错,多副本 成本低
2020-09-28 18:47:55
93
原创 HBase基本操作
Configuration conf = HBaseConfiguration.create(); HBaseAdmin admin = new HBaseAdmin(conf); //creating table descriptor HTableDescriptor table = new HTableDescriptor(toBytes(“Table name”)); //creating column family descriptor HColumnDescriptor family = new
2020-09-28 18:47:22
132
原创 Akka简介
Spark的PRC是通过Akka类库实现的,Akka由scala开发,基于Actor开发模型实现 Akka-高可靠、高性能、可扩展 轻松实现分布式RPC的功能 Actor为Akka的核心,是一个封装了状态和行为的对象,Actor之间可通过交换信息的方式进行通信 每个Actor都有自己的Mailbox。通过Actor能简化锁和线程管理 特性: 1.提供了高级抽闲,简化在并发(Concurrency)/并行(Parallelism)应用场景下的编程开发 2.提供了异步非阻塞、高性能的事件驱动编程模型 3.超级轻
2020-09-28 18:46:18
255
原创 消息同步和消息异步
同步消息:发了要回复才继续发,标准的聊天 异步消息:即便接收方关闭,发送方仍可一直发,不受阻,不需要回复,对分布式并行友好,但却不是标准的聊天
2020-09-28 18:45:07
153
2
原创 Flink keyby和partition
Flink中keyby和PartitionCustom的区别 Flink KeyBy和Partition的区别 KeyBy:根据指定的id来分类,注意key里有默认的tuple类型,这是之前在编写代码时。对key的输入输出比较迷惑的地方。keyby更像逻辑分区。 PartitionCustom:是用户自定义分区,适用于物理自定义分区,以解决数据倾斜的问题。 ...
2020-09-28 18:35:38
1388
原创 简易分布式计算系统原型
简易分布式计算系统原型概述技术架构程序架构Master ModuleWorker ModuleFunc ModuleDLCConclusion 概述 本报告主要介绍了一个简易的分布式计算系统原型,主要功能为计算π\piπ值。 技术架构 系统将采用主从模式架构,一个主控制节点,NNN个从节点。 主从节点间通信采用socket通信。 程序架构 简单明了,直接介绍程序结构。 程序分为三个大模块 Master Module Master Module内含一个Master.py,其主要功能是: (1)启动主控制节点
2020-07-02 17:58:10
268
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人