![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
不秃头的码农
大数据应用,数据结构与算法分析
展开
-
HDFS读写流程---大数据分析学习笔记3
HDFS(Hadoop Distributed File System)是GFS的开源实现。优点如下:能够运行在廉价机器上,硬件出错常态,需要具备高容错性流式数据访问,而不是随机读写面向大规模数据集,能够进行批处理、能够横向扩展简单一致性模型,假定文件是一次写入、多次读取缺点:不支持低延迟数据访问不适合大量小文件存储(因为每条元数据占用空间是一定的)不支持并发写入,一个文件只能有...原创 2019-07-23 21:59:43 · 322 阅读 · 0 评论 -
Shuffle流程————大数据分析学习笔记6
我们知道,mapreduce计算框架会将一个任务分割成若干个map,在reduce端进行合并输出,(一般情况)从map端输出到输入到reduce端中这一系列动作称为shuffle流程。(1)环形缓冲区每个map任务产生输出时,都有一个环形缓冲区用于存储任务输出阈值为80%(即100MB*0.8)这都是可以修改的...原创 2019-07-28 22:41:31 · 151 阅读 · 0 评论 -
初识Hive---大数据分析学习笔记7
Hive数据仓库一,数据仓库和传统关系型数据库的区别与联系:(1)数据库(database):传统的关系型数据库的主要应用(OLTP),主要是基本的、日常的事务处理,例如银行交易。数据仓库(data warehouse):数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。(2)...原创 2019-07-29 21:20:54 · 146 阅读 · 0 评论 -
关于YARN---大数据分析学习笔记4
一 ,YARN是什么YARN 全称(yet anthor resource negotiator)是HADOOP 的集群资源管理系统,YARN提供请求和使用集群资源的APIYARN的核心思想是将资源管理和Job的调度/监控进行分离Mapreduce1和YARN的比较MapReduce1YARNJobtracker资源管理器,application master,时间...原创 2019-07-24 22:10:27 · 257 阅读 · 0 评论 -
初识HADOOP---大数据分析技术笔记1
MapReduce 模型该模型抽象出硬盘读写问题,并将其转化为对一个数据集(由键值对组成)的计算,它是一个批处理系统传统关系型数据库MapReduceGB数量级PB数量级交互式和批处理批处理多次读写一次写入多次读取事务:ACID无写时模式读时模式完整性高完整性低非线性横向扩展线性横向扩展这里有几个概念很重要ACID:...原创 2019-07-21 21:09:52 · 205 阅读 · 0 评论 -
HDFS的概念----大数据分析学习笔记2
HDFS数据块的大小默认为128MB,其目的是为了最小化寻址开销,但也不宜过大,否则会导致作业运行速度变慢(任务数少于集群中节点的数量)。分块的好处(1)文件可以分开存放,不需要都放在一个磁盘上(2)简化存储子系统的设计(3)适用于数据备份,从而提高数据容错能力和提高可用性两类节点namenode管理节点:(1)管理文件系统的命名空间,维护文件系统树及树内的所有文件和目录(这些信息以...原创 2019-07-21 21:43:21 · 76 阅读 · 0 评论 -
HDFS之checkpoint机制---大数据分析学习笔记5
Checkpoint(检查点):HDFS这样的分布式文件系统,对文件数据的修改不是直接写回到磁盘的,很多操作是先缓存到内存的Buffer中,当遇到一个检查点Checkpoint时,系统会强制将内存中的数据写回磁盘,当然此时才会记录日志,从而产生持久的修改状态。1.Namenode上面有些什么数据:笔记2中提到namenode管理结点主要有下面两类文件edits:HDFS操作的日志记录,没此...原创 2019-07-26 21:36:38 · 1319 阅读 · 0 评论