Java大数据工作室
文章平均质量分 93
源码了解:hadluo
这个作者很懒,什么都没留下…
展开
-
hadoop3 MapReduce执行过程(三)
MapReduce概述Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据。可以处理像什么单词统计,手机号流量统计啊等。适用场景数据统计,如:网站的PV、UV统计 搜索引擎构建索引 海量数据查询 复杂数据分析算法实现不适用场景OLAP 要求毫秒或秒级返回结果 流计算 流计算的输入数据集是动态的,而MapReduce是静态的 DAG计算 多个任务之间存在依赖关系,后一个的输原创 2021-11-15 10:05:05 · 2926 阅读 · 0 评论 -
hadoop3 HDFS介绍(二)
HDFS前言设计的的思想:主要的是分而治之,将大的文件分割称为一个个小的文件,存储在各个机器上。在大数据中的应用:为大数据框架提供储存数据的服务重点概念:文件分块、副本存放、元数据。HDFS的概念和特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。其次,它是分布式的,很多服务器联合实现功能。HDFS组成结构图HDFS 写文件的基本流程先来了解几个概念block文件上传前需要分块,这个块就是block,一般原创 2021-11-15 10:03:01 · 441 阅读 · 1 评论 -
hadoop3 完全分布式集群搭建(一)
基础概念1. NameNode存储文件的元数据。如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和所在的DataNode等。2. DataNode具体存储文件块数据,以及数据块校验和。3. Secondary NameNode(2nn)每隔一段时间对NameNode元数据备份。4. ResourceManager管理整个集群的资源(内存,cpu等)。5. NodeManager管理单个节点的资源(内存,cpu等)。开始搭建原创 2021-11-15 10:01:21 · 850 阅读 · 0 评论 -
Java大数据架构-背景篇
架构图从下往上我们可以看到,分为几层:数据采集,传输层 数据存储层 数据计算查询层 数据展示层后面我们会详细介绍各层的组件,敬请期待~~大数据的前景一、大数据在医疗行业的应用大数据让就医看病更简单。过去,对于患者的治疗方案,大多数都是通过医师的经验来进行,优秀的医师固然能够为患者提供好的治疗方案,但由于医师的水平不相同,所以很难保证患者都能够接受最佳的治疗方案。而随着大数据在医疗行业的深度融合,大数据平台积累了海量的病例、病例报告、治愈方案、药物报告等信息资源..原创 2021-11-15 10:00:03 · 740 阅读 · 0 评论