hadoop基础教程
hadoop基础教程
这个作者很懒,什么都没留下…
展开
-
大数据框架入门学习hadoop基础教程汇总全集
Hadoop教程Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘...原创 2020-02-04 21:59:49 · 641 阅读 · 0 评论 -
Yarn公平调度器Fair Scheduler根据用户组分配资源池
假设在生产环境Yarn中,总共有四类用户需要使用集群,开发用户、测试用户、业务1用户、业务2用户。为了使其提交的任务不受影响,我们在Yarn上规划配置了五个资源池,分别为 dev_group(开发用户组资源池)、test_group(测试用户组资源池)、business1_group(业务1用户组资源池)、business2_group(业务2用户组资源池)、default(只分配了极少资源)。并...原创 2020-02-03 21:59:43 · 3244 阅读 · 0 评论 -
Hadoop多用户资源管理–Fair Scheduler介绍与配置
在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等待,这种当然很不合理,我们希望每个业务都有属于自己的特定资源来运行MapReduce任务,Hadoop中提供的公平调度器–Fair Scheduler,就可以满足这种需求。Fair ...原创 2020-02-03 21:59:46 · 813 阅读 · 0 评论 -
合并HDFS和本地文件系统中的小文件
众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。在使用HDFS的过程中,应尽量避免生成过多的小文件。本文以TextFile为例,介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中,对小文件的合并方法。更多精彩内容点我学将本地的小文件合并,上传到HDFS假设...原创 2020-02-03 21:59:49 · 777 阅读 · 0 评论 -
hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息(Locations)
在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。[hadoop@dev~]$ hdfs fsck Usage:DFSck[-list–corruptfileblocks|[-move|–delete|–openforwrite][-files[-...原创 2020-02-03 21:59:49 · 2566 阅读 · 0 评论 -
Java API 写 Hive Orc文件
下面的代码将三行数据:张三,20李四,22王五,30写入HDFS上的/tmp/lxw1234/orcoutput/lxw1234.com.orc文件中。packagecom.lxw1234.test; importjava.io.DataInput; importjava.io.DataOutput; importjava.io.IOException; ...原创 2020-02-03 21:59:43 · 1990 阅读 · 0 评论 -
Java API 读取Hive Orc文件
Orc是Hive特有的一种列式存储的文件格式,它有着非常高的压缩比和读取效率,因此很快取代了之前的RCFile,成为Hive中非常常用的一种文件格式。在实际业务场景中,可能需要使用Java API,或者MapReduce读写Orc文件。本文先介绍使用Java API读取Hive Orc文件。在Hive中已有一张Orc格式存储的表lxw1234:该表有四个字段:url、word、...原创 2020-02-03 21:59:49 · 1187 阅读 · 0 评论