Hadoop
遗失的风景
这个作者很懒,什么都没留下…
展开
-
大数据Hadoop之HDFS
大数据(bigData)数据量级大,处理GB/TB/PB级别数据(存储、分析)时效性,需要在一定的时间范围内计算出结果(几个小时以内)数据多维度(多样性),存在形式:传感器采集信息、web运行日志、用户的行为数据。数据可疑性,数据要有价值。需要对采集的数据做数据清洗、降噪大数据解决问题?存储打破单机存储瓶颈(数量有限,数据不安全),读写效率低下(顺序化读写)。大数据提出以分布...原创 2019-04-09 10:13:56 · 380 阅读 · 0 评论 -
Hadoop之MapReduce
Hadoop MapReduceMapReduce是一种编程模型,用于大规模数据集的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言(适合在网络中传递方法)里借来的,还有从矢量编程语言里借来的特性。Hadoop中MapReduce计算框架充分的利用了存储节点所在物理主机的内存、CPU、网络、少许磁盘完成对大数据集的分布式计算。框架一般会在所有的...原创 2019-04-09 10:15:02 · 209 阅读 · 0 评论 -
Map Reduce Shuffle(洗牌)
InputFormat/OutputFormatInputFormat&OutputFormatInputFormatFileInputFormatTextInputFormatkey/Value :key表示行字节的偏移量、value表示一行文本数据切片计算规则 :以文件为单位,以SpliSize做切割NlineInputFormatkey/Valu...原创 2019-04-09 10:15:41 · 259 阅读 · 0 评论 -
HDFS|YRAN HA
HDFS|YRAN HA环境准备CentOS-6.5 64 bitjdk-7u79-linux-x64.rpmhadoop-2.6.0.tar.gzzookeeper-3.6.4.tar.gz安装CentOS主机-物理节点CentOSACentOSBCentOSC192.168.29.129192.168.29.130192.168.29.131...原创 2019-04-09 10:16:12 · 166 阅读 · 0 评论