Spark with Hadoop InputFormat

最新推荐文章于 2023-11-18 22:27:23 发布

Jack_F

最新推荐文章于 2023-11-18 22:27:23 发布

阅读量6.9k

点赞数

分类专栏： Hadoop Scala Spark

本文链接：https://blog.csdn.net/li385805776/article/details/20125067

版权

Hadoop 同时被 3 个专栏收录

26 篇文章 0 订阅

订阅专栏

Scala

12 篇文章 0 订阅

订阅专栏

Spark

6 篇文章 0 订阅

订阅专栏

基于Yarn的，使用新的API，SBT需要添加，默认是用的1.0.4的client

libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.2.0"

代码如下

package myclass

import org.apache.spark.SparkContext
import org.apache.hadoop.io.{Text, LongWritable, IntWritable}
import org.apache.hadoop.mapreduce.lib.input.{TextInputFormat, KeyValueTextInputFormat}

/**
 * Created by jack on 2/27/14.
 */
object MyHadoopFile {
	def main(args: Array[String]) {
		val spark = new SparkContext("local","my hadoop file",System.getenv("SPARK_HOME"),SparkContext.jarOfClass(this.getClass))
		val file = spark.newAPIHadoopFile[LongWritable, Text, TextInputFormat]("hdfs://127.0.0.1:9000/user/jack/data/pagerank_data.txt")
		file.foreach(println)
		System.exit(0)
	}
}

结果

(0,1 2)
(4,1 3)
(8,1 4)
(12,2 1)
(16,3 1)
(20,4 1)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Jack_F

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Flink、Spark、Hive集成Hudi

QYmufeng的博客

09-14

737

版本：0.13.1版本：flink-1.15.2spark版本：3.3.2Hive版本：3.1.3Hadoop版本：3.3.4。

spark使用自定义Hadoop的FileInputFormat读取hdfs上的数据

leehbing的博客

07-25

3961

比如：一个300MB的文件，其中包含6条记录，每条记录300/6=50MB，该文件在hdfs上分了3个block，每个block为128MB，如上图，第3、6个记录跨block了。如下图所示。为了处理改文件，spark在每个数据节点上创建executor，这些executor负责读取自己的数据。 Block 1 上的Executor 1 读取3条记录作为输入，其中本地读Line1、Lin...

2 条评论您还未登录，请先登录后发表或查看评论

Spark通过自定义InputFormat读取HDFS文件实现稍微复杂的业务场景

weixin_39011791的博客

09-10

1171

业务场景 Spark根据InputFormat可以知道如何读取文件默认根据一行来读取在用户没在按照指定的换行符情况下是按照空格来区分的但是在一些特定的情况下spark默认的InputFormat就不太管用了最近小编在公司的一个需求中就遇到了下面的问题大数据部分ETL每天会清洗数据成一个json字符串写到HDFS文件中写到文件格式如下 {"queryType":"BASIC","se...

Hadoop的InputFormats和OutputFormats

weixin_33989780的博客

08-24

160

InputFormat InputFormat类用来产生InputSplit，并把它切分成record。 public interface InputFormat<K, V> { InputSplit[] getSplits(JobConf job, int numSplits) throws IOException; RecordReade...

【spark】自定义数据读取的InputFormat（异常：incorrect data check）

lsr40的博客

03-31

2719

其实大多数场景下，各种大数据框架预定义的InputFormat（数据读取器）是够用的，除了一些比较特殊的情况，特殊的数据格式，我们才会需要自定义读取数据的方式。然后有一天，我在接入一个hdfs上gz格式数据的时候，遇到了一个报错：仔细看了报错，是输入流在read数据的时候，调用LineRecordReader的nextKeyValue方法报错了，百度了下，没有什么太准确的答案，大致来说...

Spark 之 format

热门推荐

OopsOutOfMemory盛利的博客

04-21

2万+

目前spark的Run on的hadoop版本大多是hadoop2以上，但是实际上各个公司的生产环境不尽相同，用到2.0

Hadoop与Spark之间的比较

Hadoop环境搭建教程

01-09

265

Hadoop与Spark之间的比较 Hadoop框架的主要模块包括如下： Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop MapReduce 虽然上述四个模块构成了Hadoop的核心，不过还有其他几个模块。这些模块包括：Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop，它们进一步增...

Hadoop 2.6.0升级至Hadoop 3.2.1及回滚

Deegue

07-20

2880

1、背景计划升级Hadoop版本从2.6.0-cdh5.16.1升级至开源3.2.1。 Hive版本为2.3.6，与Hadoop3.2.1不兼容，于是测试Hive3.1.3。 2、问题 ① 启动报错 Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V at org.

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

xiaolang85的专栏

06-30

2613

来自： http://www.cnblogs.com/yurunmiao/p/5195754.html 目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至HDFS，用于数据挖掘或机器学习。HDFS存储数据时目录的最小逻辑单位为“小时”，为了保证数据计算

Spark：用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

weixin_34143774的博客

01-07

310

http://www.cnblogs.com/yurunmiao/p/5195754.html 原始读法： lines = sc.textFile("hdfs:///dir/") 这样一个block会形成一个partition，对应一个task。优化读法： lines = sc.newAPIHadoopFile( "hdfs:///dir/"...

自定义InputFormat

weixin_42898914的博客

12-08

402

自定义InputFormat 需求：将多个小文件合并为SequenceFile（存储了多个小文件）存储的格式：文件路径+文件的内容 public class FuncFileInputFormat extends FileInputFormat<NullWritable,BytesWritable>{ @Override pr...

IMF spark 读入文件中文编码转换处理（JAVA版本）

段智华的博客

01-25

1469

IMF spark 读入文件中文编码转换处理（JAVA版本） SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("UTFtoGBK"); JavaSparkContext sc = new JavaSparkContext(sparkConf); JavaRDD lines = sc.hadoopF

Spark - newAPIHadoopFIle 获取文件与文件路径 By Scala

BITDDD小栈

09-14

2475

一.引言离线日志通常使用 dt，hour，min 或者使用 timeStamp 作为累计文件的命名方式，对于文件日志中不包含时间戳或者时间信息的日志内容，为了获取其对应创建时间与文件属性，需要读取文件时同时获取其 File 对应的 FileSplit 类。二.实践 1.思路 A. sc.newAPIHadoopFile 读取输入获得 RDD[(LongWritable, Text)] B. asInstanceOf 转换为 NewHadoopRDD[LongWritable, Text].

spark 与 hadoop的hdfs的连接（亲测有效）

AStar的博客

04-03

1万+

出处：：http://blog.csdn.net/oopsoom/article/details/24257981，目前Spark的Run on的Hadoop版本大多是hadoop2以上，但是实际上各个公司的生产环境不尽相同，用到2.0以上的公司还是少数。大多数公司还是停留在1代hadoop上，所以我就拿spark0.91 + hadoop0.20.2-cdh3u

【spark】Spark读取HBase表(newAPIHadoopRDD方式)

fuyun6363的博客

10-11

3162

hbase依赖于zookeeper和hadoop，spark读取hbase数据需要连接到zookeeper，通过zookeeper访问hbase：第一种是将hbase-site.xml文件加入classpath 第二种是在HBaseConfiguration实例中设置如果不设置，默认连接的是localhost:2181会报错：connection refused 本文使用的是第二种方式。 maven中需要引入依赖 <?xml version="1.0" encoding="UTF-8"?>

Spark与Hadoop大数据分析实战

"《大数据分析与Spark和Hadoop》是一本深入探讨Apache Spark 2.0版本和Hadoop 2.7版本集成的常用工具的书籍。本书详细介绍了Spark堆栈的所有组件，包括DataFrame、DataSet、GraphFrames、结构化流处理、基于...