spark读取gz文件

spark 1.5.1是支持直接读取gz格式的压缩包的,和普通文件没有什么区别:

使用spark-shell进入spark shell 交互界面:

输入命令:

sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println)

回车后是可以看到该目下很多个gz压缩包文件都被打印出来了。

 单文件

 

 gzip zzz.dat # 压缩 源文件被删除 生成zzz.dat.gz

 gzip -d  zzz.dat.gz  解压,源文件被珊瑚,生成zzz.dat文件

递归压缩,好像 只支持单文件的压缩

[hadoop@mini1 test]$ gzip -r t
[hadoop@mini1 test]$ ll
total 4
drwxr-xr-x. 2 hadoop root 4096 Aug 9 12:24 t
[hadoop@mini1 test]$ cd t/
[hadoop@mini1 t]$ ll
total 8
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t1.dat.gz
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t2.dat.gz

 

 

 

转载于:https://www.cnblogs.com/rocky-AGE-24/p/7324313.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Spark 是一个强大的大数据处理框架,它支持从各种数据源高效地读取数据文件Spark 提供了多种方式来加载数据,包括但不限于: 1. **文本文件**(textFile):这是最基本的文件加载方式,适用于文本格式的数据,如 CSV、Tsv等。例如: ```scala val lines = spark.read.text("path/to/your/textfile.csv") ``` 2. **CSV文件**(csv):Spark也提供了专门读取CSV格式的函数,可以直接解析: ```scala val df = spark.read.format("csv").option("header", "true").load("path/to/csv") ``` 这里设置了`header`为`true`表示第一行是列名。 3. **JSON文件**(json):对于JSON数据,可以直接使用`json`格式加载: ```scala val df = spark.read.json("path/to/jsonfile.json") ``` 4. **Parquet或ORC**:这两种是列式存储格式,用于优化读写性能,尤其适合大量数据: ```scala val df = spark.read.parquet("path/to/parquetfile.parquet") ``` 5. **Hadoop InputFormat**:可以读取HDFS或其他Hadoop支持的文件系统中的数据: ```scala val df = spark.read.format("hadoop").load("hdfs://path/to/data") ``` 6. **JDBC/ODBC**:如果数据存储在数据库中,可以通过连接驱动器加载: ```scala val df = spark.read.format("jdbc").options(Map( "url" -> "jdbc:mysql://url", "dbtable" -> "your_table", "user" -> "username", "password" -> "password" )).load() ``` 在使用这些方法时,记得根据你的数据源和格式选择合适的加载方式,并可能需要调整参数来适应特定的数据格式和需求。如果你有更具体的问题,比如如何连接到特定的数据源,或者关于数据读取的最佳实践,可以继续提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值