自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hadoop基础教程

hadoop基础教程

  • 博客(7)
  • 收藏
  • 关注

原创 大数据框架入门学习hadoop基础教程汇总全集

Hadoop教程Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘...

2020-02-04 21:59:49 623

原创 合并HDFS和本地文件系统中的小文件

众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。在使用HDFS的过程中,应尽量避免生成过多的小文件。本文以TextFile为例,介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中,对小文件的合并方法。更多精彩内容点我学将本地的小文件合并,上传到HDFS假设...

2020-02-03 21:59:49 726

原创 Java API 读取Hive Orc文件

Orc是Hive特有的一种列式存储的文件格式,它有着非常高的压缩比和读取效率,因此很快取代了之前的RCFile,成为Hive中非常常用的一种文件格式。在实际业务场景中,可能需要使用Java API,或者MapReduce读写Orc文件。本文先介绍使用Java API读取Hive Orc文件。在Hive中已有一张Orc格式存储的表lxw1234:该表有四个字段:url、word、...

2020-02-03 21:59:49 1145

原创 hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息(Locations)

在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。[hadoop@dev~]$ hdfs fsck Usage:DFSck[-list–corruptfileblocks|[-move|–delete|–openforwrite][-files[-...

2020-02-03 21:59:49 2511

原创 Hadoop多用户资源管理–Fair Scheduler介绍与配置

在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等待,这种当然很不合理,我们希望每个业务都有属于自己的特定资源来运行MapReduce任务,Hadoop中提供的公平调度器–Fair Scheduler,就可以满足这种需求。Fair ...

2020-02-03 21:59:46 766

原创 Yarn公平调度器Fair Scheduler根据用户组分配资源池

假设在生产环境Yarn中,总共有四类用户需要使用集群,开发用户、测试用户、业务1用户、业务2用户。为了使其提交的任务不受影响,我们在Yarn上规划配置了五个资源池,分别为 dev_group(开发用户组资源池)、test_group(测试用户组资源池)、business1_group(业务1用户组资源池)、business2_group(业务2用户组资源池)、default(只分配了极少资源)。并...

2020-02-03 21:59:43 3219

原创 Java API 写 Hive Orc文件

下面的代码将三行数据:张三,20李四,22王五,30写入HDFS上的/tmp/lxw1234/orcoutput/lxw1234.com.orc文件中。packagecom.lxw1234.test; importjava.io.DataInput; importjava.io.DataOutput; importjava.io.IOException; ...

2020-02-03 21:59:43 1953

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除