spark编程笔记wholeTextFiles使用\n作为分隔符

最新推荐文章于 2023-02-13 22:26:52 发布

刘s泽

最新推荐文章于 2023-02-13 22:26:52 发布

阅读量1.1k

点赞数 1

分类专栏：已解决问题文章标签： wholeTextFiles使用\n作为分隔符 spark异常处理 streaming最后不写stop 去除第一行

本文链接：https://blog.csdn.net/qq_16760101/article/details/84315646

版权

已解决问题专栏收录该内容

15 篇文章 0 订阅

订阅专栏

一、使用wholeTextFiles使用\n作为分隔符时问题：

wordcount.txt（文件中没有多余空格&\n）:

hadoop
hbase
spark

执行的spark程序：

val word=sc.wholeTextFiles("E:\\new 1.txt")
word.flatMap(_._2.split("\n")) .map(x=>(x,1)).foreach(println(_))

输出为：

 ,1)
 ,1)
 (spark,1)

解决方法：突然想到回车为\r\n，因此使用\r\n作为分隔符即可。

二、spark程序去除源文件第一行字段名称：

val header=files.first()
val file=files.filter(x=>x!=header)
val splitFile = file.map(x => x.split(" ")).filter(arr => arr.length == 3)

三、scala的异常处理

处理异常需要使用case模式匹配

try{
 println("daydayup")
}catch{
 case ex: FileAlreadyExistsException => println(路径已存在")
 case ex: Throwable => println("未知错误" + ex)
}

四、spark程序运行中hdfs设置文件夹覆盖

sparkConf().set("spark.hadoop.validateOutputSpecs", "false")

五、使用“|”作为分隔符需要转义“\|”

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

刘s泽

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark读取文件的两种方法textFile和wholeTextFiles

给我一点温度

09-09

1万+

sc.textFile() sc.wholeTextFiles() sc.textFile(path)能将path里的所有文件内容读出，以文件中的行作为一条记录的方式。所有文件的每一行都相当于 List中以 “,”号隔开的一个元素，因此可以在每个partition中用for i in data的形式遍历处理Array里的数据。 sc.wholeTextFiles(path)返回...

Spark 导出 TXT 、CSV 文件小试牛刀

pot成长之路

01-19

8022

/** 注意1： Spark saveAsTextFile 保存出来的是一个文件夹，所以才有以下获取文件夹里面的文件并整合成一个文件的操作；注意2：在没有main函数的情况下实现类一定要 implements Serializable,不然会报错不能序列化 */ import org.apache.spark.api.java.JavaRDD; import pass.commo...

参与评论您还未登录，请先登录后发表或查看评论

Spark从外部读取数据之wholeTextFiles

legotime的博客

07-11

1万+

wholeTextFiles函数 /** * Read a directory of text files from HDFS, a local file system (available on all nodes), or any * Hadoop-supported file system URI. Each file is read as a single record an

spark算子-wholeTextFiles算子

m0_37817767的博客

07-15

1491

spark源码阅读、wholeTextFiles算子

实用详解spark的读取方法textFile和wholeTextFiles

云上的听者

10-12

1万+

textFile()和wholeTextfile()之间的区别，用测试数据和测试结果来证明。

spark考试（练习题）编程题笔记！

06-13

Spark考试（练习题）编程题笔记！一、RDD简介 RDD（Resilient Distributed DataSet）是 Spark 中的核心概念，表示弹性分布式数据集。它是容错的、并行的数据结构，可以让用户将数据存储到磁盘和内存中，并且还能...

Spark查询多字符分隔符hive表时遇到的问题

qq_32854205的博客

11-07

1346

Spark查询多分隔符hive表时遇到的问题首先肯定要引入创建多分隔符hive表时的jar包，hive-contrib-3.1.0.3.0.0.0-1634.jar 然而使用spark-shell --jars xxx/hive-contrib-3.1.0.3.0.0.0-1634.jar引入jar包后查询多分隔符hive表时仍然提示classnotfound异常，提示类找不到，在命令行界面试下...

spark编程基础python版 pdf_Spark编程基础Python版-第5章-Spark-SQL.pdf

weixin_39684967的博客

12-11

2013

《Spark编程基础(Python版)》教材官网：/post/spark-python/温馨提示：编辑幻灯片母版，可以修改每页PPT的厦大校徽和底部文字第5章Spark SQL(PPT版本号：2020年1月版)《Spark编程基础(Python厦门大学计算机科学系版)》厦门大学计算机科学系林子雨 2020版ziyulin@课程教材林子雨，郑海山，赖永炫编著《Spark编...

spark编程基础python版实验报告_Spark编程基础（Python版）

weixin_39849239的博客

12-11

2372

章大数据技术概述1.1 大数据概念与关键技术1.1.1 大数据的概念1.1.2 大数据关键技术1.2 代表性大数据技术1.2.1 Hadoop1.2.2 Spark1.2.3 Flink1.2.4 Beam1.3 编程语言的选择1.4 在线资源1.5 本章小结1.6 习题实验1 Linux系统的安装和常用命令第2章 Spark的设计与运行原理章大数据技术概述1.1 大数据概念与关键技术1.1....

spark编程基础python版 pdf_《Spark编程基础（Scala版）》.PDF

weixin_39936792的博客

12-11

3355

《Spark编程基础(Scala版)》.PDF《Spark编程基础(Scala版)》教材官网：/post/spark/温馨提示：编辑幻灯片母版，可以修改每页PPT的厦大校徽和底部文字《Spark编程基础(Scala版)》课程介绍(PPT版本号：2018年春季学期)林子雨厦门大学计算机科学系扫一扫访问教材官网 E-mail: ziyulin@主页：/...

spark 读取csv文件,文件内容含有换行，文件内容中有分隔符

Hui950317的博客

06-13

3880

spark.read .option("multiLine", true) .csv(csv_path)

sparksq中的文件加载

m0_48714980的博客

12-11

313

spark.read.format(“json”).load(“file///…l路径名”) 简写spark.read.json(“file///路径名”) spark.read.format(“parquet”).load(“file///…l路径名”) 简写spark.read.parquet(“file///路径名”) 加载text，只能解析成一列 spark.read.text(…) csv 普通文本文件，但是每一列之间作为分隔符，我们可以重新制定它的表头 spark .read.csv(“file

spark 加载多个目录； RDD输出到hdfs文件压缩

u012075079的专栏

08-30

5781

(1) spark textFile加载多个目录：其实很简单，将多个目录（对应多个字符串），用,作为分隔符连接起来 val inputPath = List("hdfs://localhost:9000/test/hiveTest", "hdfs://localhost:9000/test/hiveTest2") .mkString(",

Hadoop 和 spark 读取多个文件通配符规则（正则表达式）joe

qq_33290422的博客

07-09

2909

最近在公司需要计算手机信令数据但是每次spark读取文件的时候都是把当天24小时从头到尾读取一遍非常耗时，在一步操作中处理批量文件，这个要求很常见。举例来说，处理日志的MapReduce作业可能会分析一个月的文件，这些文件被包含在大量目录中。Hadoop有一个通配的操作，可以方便地使用通配符在一个表达式中核对多个文件，不需要列举每个文件和目录来指定输入如下图所示：点击打开链接

Apache SparkSQL DataFrame 读取文本文件

大数据流浪法师的学习笔记与分享

04-09

965

DataFrame 读取文本文件 1.在本地创建一个文件，有id、name、age三列，用空格分隔，然后上传到hdfs上 vim person.txt 1 zhangsan 20 2 lisi 29 3 wangwu 25 4 zhaoliu 30 5 tianqi 35 6 kobe 40 上传数据文件到HDFS上： hadoop fs -put person.txt / 2.在spar...

SparkContext.textFile读取文件