scala读取HDFS上的文件，每次读取一行

最新推荐文章于 2024-07-23 16:14:33 发布

守猫de人

最新推荐文章于 2024-07-23 16:14:33 发布

阅读量8k

点赞数 1

分类专栏： Scala Hadoop

本文链接：https://blog.csdn.net/ZMC921/article/details/76131294

版权

本文档展示了如何使用Scala从HDFS（Hadoop分布式文件系统）中逐行读取文件。代码示例中，通过HDFSUtil获取FSDataInputStream，然后创建BufferedReader进行读取，避免了字节流可能导致的乱码问题。每读取一行，就打印并增加计数，线程暂停1毫秒，确保有序读取。

摘要由CSDN通过智能技术生成

用scala读取一个只有字符的文件，该文件是已经清洗完的数据，有规律，一行是一条数据。
现在的需求是一次读取文件中的一部分，依次读取完。

之前用字节流偶尔出现乱码，最后改成一次读取一行了。import java.io.{BufferedReader, InputStreamReader}

import org.apache.hadoop.fs.FSDataInputStream

/**
  * Created by wx on 2017/7/25.
  */
object ReadHDFSFileByLine {
  def main(args: Array[String]) {
    var inputStream: FSDataInputStream = null
    var bufferedReader: BufferedReader = null
    try {
      /* inputStream = HDFSUtil.getFSDataInputStream("hdfs://master:9000/TestData/aviation7/part-00018")
       bufferedReader = new BufferedReader(new InputStreamReader(inputStream))
       var lineT