Hadoop自定义linereader，实现按行分块

最新推荐文章于 2022-09-23 15:33:33 发布

Linda_ak

最新推荐文章于 2022-09-23 15:33:33 发布

阅读量1.6k

点赞数

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/mantianpiaoling/article/details/50390150

版权

最近想用Hadoop实现一个A的转置乘以A的矩阵运算，假设A是100w*100的矩阵，想把100w行特征分成100个map，每个map处理1w行，每个map一次性处理1w行，而不是一行一行处理。
hadoop0.21.0这个版本已经实现了NLineInputFormat这个方法

job.setInputFormatClass(NLineInputFormat.class);
NLineInputFormat.addInputPath(job, in);
NLineInputFormat.setNumLinesPerSplit(job,10000);

这样可以实现每个map处理10000行的需求，100万行就是100个map，而不是默认的按物理块大小分配map，但是这个接口内部调用map方法的时候，仍是一行一行处理的，map方法会被执行10000次，现在改写linereader，让map方法只执行一次，每次处理10000行。

首先定义myLineInputFormat类，将job的读入方式设成myLineInputFormat。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Linda_ak

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hadoop 自定义分区

congge

01-03

1万+

hadoop 自定义分区总结

hadoop 自定义OutputFormat

congge

01-08

7131

hadoop 自定义OutputFormat

1 条评论您还未登录，请先登录后发表或查看评论

LineReader

03-07

LineReader 免责声明：差劲的c ++会摆在前面。规范读取串行输入。

hadoop 按行划分

weixin_30509393的博客

12-20

122

这两天一直在研究用hadoop进行并行计算的事情，既然要并行，就逃不过将大问题划分成小问题这一步。所以hadoop里的InputFormat是非常关键的。通常有把输入文件按单个文件一个split来划分，也有按记录的行来划分。下面我介绍按行划分的代码，这里所谓的按行划分，就是将输入行按每N行划分为一个split。 1 package seven.ili; 2 3 import o...

hadoopAPI之LineReader类

qq_35488275的博客

03-25

739

在keams算法代码里发现其中用了一个LineReader类中的readline方法故查看api 代码中用了第三个方法创建了一个lineReader实例在调用lineReader实例的readline（String）方法把输入流fsis中的一行写入到Text型的line中返回一个int型如果大于零说明这一行不为空。

详解Hadoop中的LineReader的readLine函数

whgyxy的博客

08-06

3209

Hadoop中的LineReader的readLine函数可以说写的很不错，这里结合自己的理解，详细的添加了注释。该函数最精彩的一点就是保证了读取分片的时候不会出现断行，针对不同的文件系统，能够做到正确的判断行结束的位置，从而准确的读出文本中的一行内容。 1、如果当前字符是’\r’，虽然不能立即确定是不是读到行尾了（后面可能跟着’\n’）,但是这行的内容已经确定了，就是行结束符的长度没有确

hadoop中LineReader的readLine方法解析

zhangbaoming815的博客

07-31

733

Hadoop默认的读取一条数据，使用的就是LineReader的readLine方法，这个方法具体怎么工作，可以直接看源码，因为比较复杂，所以加上一些注释： /** * Read one line from the InputStream into the given Text. A line can be * terminated by one of the ...

Hadoop 自定义 Partitioner 实现

03-12

Hadoop 自定义 Partitioner 实现

hadoop自定义类型编程

04-29

如果自定义类型还需要作为排序的键（Key），则应实现`org.apache.hadoop.io.WritableComparable<T>`接口。这会额外要求你实现`compareTo(T other)`方法，以定义比较规则。确保此方法的实现符合你的业务需求，例如，...

LineReader:遍历一个文本文件，一次一行

07-02

行阅读器提供一种遍历文本文件每一行的方法。用法使用工厂方法实例化一个新的LineReader ： LineReader l = LineReader.factory("file_location.txt"); 将LineReader视为Iterator ；也就是说，调用next()方法将遍历您提供的文本文件中的每一行。例如，假设我们有一个如下所示的文本文件： Roses are red Violets are blue I like Java And so do you 我们调用工厂方法并提供此文件的位置作为参数： LineReader poem = LineReader.factory("java_poem.txt"); 调用next()方法将产生字符串： Roses are red LineReaders 实现了Iterator接口，所以不需要调用itera

Hadoop-MapReduce下的PageRank矩阵分块算法

01-15

Hadoop-MapReduce下的PageRank矩阵分块算法

LineReader和LineRecordReader

u011357712的专栏

04-12

1653

RecordReader是抽象类，LineRecordReader是实现类，RecordReader有很多子类，例如LineRecordReader，SequenceFileRecordReader，KeyValueLineRecordReader等，里面的方法实现不一样，如nextKeyValue（）方法。系统默认的RecordReader是LineRecordReader，

Hadoop：LineRecordReader跨分片读取数据详解

二分之一

09-23

571

hadoop 跨分片读取 hadoop源码

Unity 之 LineReaderer组件

陈言必行 -- Unity游戏开发领域优质博主

11-08

2239

LineRenderer线渲染器主要是用于在3D中渲染线段，虽然我们也可以使用GL图像库来渲染线段，但是使用LineRenderer我们可以对线段进行更多的操作，例如:设置颜色，宽度等。在这里要注意LineRenderer渲染出的线段的两个端点是3D世界中的点，即他是属于世界坐标（World Point）中的。LineRenderer是以组件形成存在的，首先我们新建一个空的Game Object，

线性代数｜按行分块和按列分块

长行

09-19

3326

线性代数学习笔记

lineReader 文件上传MySQL(可读每行)

kadxls的博客

05-20

412

var fs = require("fs"); var lineReader = require('line-reader'); var async = require("async"); var readFile= require("./路径/readFileDao"); function run(){ var path = 'E:/'; //设置读取文件路径 expl

php和nodejs和readline,node.js readline和line-reader逐行读取文件

weixin_35179649的博客

03-26

357

逐行读取文件的能力允许我们读取大文件，而无需将其全部存储到内存中。它有助于节省资源和提高应用程序的效率。它允许我们寻找所需的信息，一旦找到了相关的信息，我们可以停止搜索过程，可以防止不必要的内存使用。我们将使用Readline模块和Line-Reader模块来实现这一目标。使用Readline模块:Readline是Node的原生模块。它是专门为从任何可读流逐行读取内容而开发的。它可用于从命令行读...

hadoop文件IO

司念

01-19

897

hadoopIO相关

Hadoop自定义序列化：Writable接口详解

Hadoop序列化主要使用Writable接口，提供了一系列基础数据类型的实现，如BooleanWritable、IntWritable等，同时也支持Map和Array的序列化。对于自定义bean对象的序列化，需要遵循特定步骤，包括实现Writable接口、...