![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
一路奔跑无止境
依旧是少年
展开
-
大数据概述
大数据概述一、大数据的概念大数据指的是传统数据处理应用软件不足以处理他们的大或复杂的数据集的术语。二、大数据的特点(4v) Volume:数据量巨大 Variety:数据种类多 Velocity:数据速度快 Value:价值密度低 三、大数据的数据类型 [ ] 结构化数据 [ ] 非结构化数据 相对于结构化数据(即行数据,存储在数据库里,可以用原创 2017-08-08 07:15:28 · 1222 阅读 · 0 评论 -
HDFS概述
HDFS概述标签(空格分隔): 大数据 Hadoop HDFS一、HDFS概念 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大原创 2017-08-11 06:54:13 · 319 阅读 · 0 评论 -
Hadoop IO 操作
HDFS SequenceFile 与 MapFile标签: HDFSSequenceFile背景:HDFS和MapReduce主要针对大数据文件来设计,在小文件处理上效率低.解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源.hdfs提供了两种类型的容器 SequenceFile和MapFile HDFS和MapR原创 2017-08-14 05:30:31 · 397 阅读 · 0 评论