大数据
文章平均质量分 85
什么时候能发财
这个作者很懒,什么都没留下…
展开
-
毕业论文项目部署
部署 flume 下载链接 https://flume.apache.org/download.html 【flume 1.8】 Kafka https://kafka.apache.org 【kafka_2.11-1.0.0.tgz】 移动文件 ~/Downloads $ tar zxvf apache-flume-1.8.0-bin.tar.gz ~/Downloads $ mv apache-flume-1.8.0-bin /usr/local #注意root执行 ~/Downloads $ ta原创 2022-03-02 16:14:36 · 1678 阅读 · 0 评论 -
HDFS概述
1.在HBase随机读写改进 HDFS也是块【但比普通文件系统大很多64-128M】 支持大规模数据存储 降低分布式节点的寻址开销 块过大了会导致MapReduce只在一俩个块中进行任务,导致并行度降低 HDFS俩大组件,分为名称节点,数据节点 名称节点为整个HDFS集群的管家,记录信息,相当于数据目录,为主节点 数据节点,存储实际数据 名称节点分为FsImage,EditLog FsImage用于保存系统文件树(不维护,文件存储在哪个节点、块上,这是由内存上来处理的,名称节点的元数据内容都是保存在内存里的原创 2020-09-28 18:48:44 · 98 阅读 · 0 评论 -
大数据架构
处理架构:Hadoop 开源分布式计算平台,极大降低计算复杂性,提供简单傻瓜式接口,Java开发 支持多种编程语言,c\c++\java\python,跨平台 俩大核心 HDFS+MapReduce——分别解决分布存储和处理 03,google提出分布式文件系统GFS(Google File System) 04,google提出分布式并行编程框架MapReduce 初始效率 910节点对1TB用了209s 冗余副本机制,提供高可靠性(一点故障有备份) 高效率性 可扩展性,不断增加 高容错,多副本 成本低原创 2020-09-28 18:47:55 · 108 阅读 · 0 评论 -
HBase基本操作
Configuration conf = HBaseConfiguration.create(); HBaseAdmin admin = new HBaseAdmin(conf); //creating table descriptor HTableDescriptor table = new HTableDescriptor(toBytes(“Table name”)); //creating column family descriptor HColumnDescriptor family = new原创 2020-09-28 18:47:22 · 157 阅读 · 0 评论 -
Akka简介
Spark的PRC是通过Akka类库实现的,Akka由scala开发,基于Actor开发模型实现 Akka-高可靠、高性能、可扩展 轻松实现分布式RPC的功能 Actor为Akka的核心,是一个封装了状态和行为的对象,Actor之间可通过交换信息的方式进行通信 每个Actor都有自己的Mailbox。通过Actor能简化锁和线程管理 特性: 1.提供了高级抽闲,简化在并发(Concurrency)/并行(Parallelism)应用场景下的编程开发 2.提供了异步非阻塞、高性能的事件驱动编程模型 3.超级轻原创 2020-09-28 18:46:18 · 276 阅读 · 0 评论