——MapReduce
文章平均质量分 73
数据挖掘
脸ル粉嘟嘟
BigDate.我命由我!
展开
-
合并文件解决HiveServer2内存溢出方案
使用HiveServer2查询数据时,会将元数据都加载到内存中,如果一个表格的分区很大,每个分区中又有很多的小文件,就会导致将元数据加载到内存中时使用的内存比较大。因此,Cloudera公司推荐使用的分区数最好不要超过1000个分区;同时分区中的也不要存储过多的为小文件,要定期对数据进行治理以合并小文件。原创 2023-06-06 16:23:02 · 1191 阅读 · 0 评论 -
MapReduce集群搭建
概述MapReduce运行在Hadoop集群上。但MapReduce是通过另外一批进程来运行的。HDFS的进程名是NameNode、SecondaryNameNode和DataNode;而MapReduce的进程名(可以通过JPS命令查看)是:ResourceManager:数据计算资源的总体管理者,地位相当于NameNode。NodeManager:执行计算的节点,地位相当于Data...原创 2018-10-09 22:04:59 · 838 阅读 · 0 评论 -
MapReduce入门(一)单词计数
一、MR计算模型的由来 MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷,主要是为了解决其搜索引擎中大规模网页数据的并行化处理。 Google公司发明了MapReduce之后,首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很...原创 2018-10-09 20:00:44 · 2663 阅读 · 0 评论 -
MapReduce入门(二)合并小文件
hadoop为什么要合并小文件? 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则nameno...原创 2018-10-13 13:20:10 · 643 阅读 · 0 评论 -
MapReduce入门(三)倒排索引
什么是倒排索引? 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。我感觉搜索引擎的原理就是倒排索引,或者正排索引...原创 2018-10-13 15:50:04 · 471 阅读 · 0 评论 -
Mapreduce自定义数据类型
Hadoop自带的数据类型:Intwritable,LongWritable,Text,xxWritable. 某些情况下:使用自定义的数据类型方便一些(类似java中的pojo)。实现:实现writableComparable接口即可。场景例如:成绩表:由语文,数学,英文组成。上传到hdfs上score目录下一个score.txt文件--文件内容如下:想...原创 2018-10-15 12:38:45 · 547 阅读 · 0 评论 -
复合式MapReduce之ChainJob
依赖式的场景我们可以设想一下MapReduce有2个子任务job1,job2构成,job2要在job1完成之后才执行。job1:用上篇写的合并小文件job2:使用单词计数这种关系就叫复杂数据依赖关系的组合时mapreduce。hadoop为这种组合关系提供了一种执行和控制机制,hadoop通过job和jobControl类提供具体的编程方法。Job除了维护子任务的配置信息,...原创 2018-10-13 13:41:12 · 191 阅读 · 0 评论