自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 HIVE&Flume&Sqoop综合练习

Hive存储的数据量大,在查询数据的时候,通常没有索引,需要扫描整个表;当然这个低是有条件的,即数据规模较小,当数据规模大到 超过数据库的处理能力的时候,Hive的并行计算显然能体现出并行的优势。Hive对数据更新不友好;RDBMS支持频繁、快速数据更新Hive是针对数据仓库应用设计的,数据仓库的内容是读多写少的。因此,Hive中不建议对 数据的改写,所有的数据都是在加载的时候确定好的。RDBMS使用自己的执行引擎 Hive中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的。

2022-11-14 08:46:10 249 1

原创 MapReduce课程设计 好友推荐功能

创建项目//获取虚拟机配置信息//创建Job对象//Map端//combiner组件//Reduce端//文件的输入路径//结果的输出路经//若路径存在则将其删除0 : 1);

2022-10-04 08:53:32 166

原创 HDFS完全分布式集群搭建与配置及常见问题总结

其次,用MapReduce处理大量小文件时,会产生过多的Map任务,进行管理开销会大大增加,因此处理大量小文件的速度远远低于处理同等规模的大文件的速度。NameNode节点可以将旧的fsimage文件及旧的日志文件,换为新的fsimage文件和新的日志文件(第一步生成的),然后更新fstime文件,写入此次checkpoint的时间。数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。

2022-09-16 16:27:12 1452

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除