![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
慢点走
这个作者很懒,什么都没留下…
展开
-
Java,Scala - 使用代码统计hadoop中hdfs的文件大小以及文件夹大小
文章目录一些配置和前提说明hadoop的一些说明代码的一些说明pom.xml获取行数使用FileSystem获取文件行数使用spark获取hdfs 文件的条数获取大小第一种解决办法:使用getBytes()第二种解决办法:使用listStatus()简单的情况比较麻烦的情况第三种解决办法:使用getContentSummary()额外说点hadoop fs -dus &nb原创 2020-07-03 17:29:02 · 5389 阅读 · 0 评论 -
java 使用FileSystem读取hadoop文件
在一些情景下,需要用java读取hadoop的文件的具体内容,而不是把文件复制到本地。 pom.xml pom.xml如下: <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-原创 2020-07-03 17:42:18 · 1777 阅读 · 0 评论 -
使用代码(java, scala) 写入hdfs - java写入hdfs
文章目录java创建文件并写入hdfsjava写入hdfs - 追加写pom.xml java创建文件并写入hdfs 在网上找了好几个java写入hdfs的,都是用IOUtils.copy()写入的,最后找到了不是用IOUtils.copy()写入的,赶紧自己整理一下。 import org.apache.hadoop.conf.Configuration; i原创 2020-06-22 19:54:15 · 1248 阅读 · 0 评论 -
如何在代码中(java, scala)获取hadoop集群的配置
使用java获取 hadoop集群的配置 正常情况下,我们应该知道自己要使用的hadoop集群的所有配置信息。 但总会有不正常的情况… 如果需要在代码中获取hadoop集群中的相关信息,那么如下: import org.apache.hadoop.conf.Configuration; impo原创 2020-06-22 19:40:33 · 525 阅读 · 0 评论 -
Hadoop中,切片split逻辑,FileOutputFormat.getSplits()源码解析
其实虽然说是源码解析,但根本没那个本事,只是看了段视频,跟着在源码里写了点注释而已。 Hadoop中,MapReduce时,会对文件进行切片,这其中涉及到了FileOutputFormat.getSplits()。该方法的作用是得到切片。 &n...原创 2020-01-09 20:00:55 · 556 阅读 · 0 评论