spark数据导入导出

最新推荐文章于 2024-08-14 18:12:00 发布

alexpeace

最新推荐文章于 2024-08-14 18:12:00 发布

阅读量5.4k

点赞数

分类专栏：大数据文章标签： spark 数据导入导出 hive

本文链接：https://blog.csdn.net/alexpeace/article/details/78871143

版权

本文介绍了如何使用Spark进行数据导入导出，包括从Hive导入数据，通过spark-shell、spark-submit以及Zeppelin进行代码执行，并详细阐述了数据输出为CSV、JSON格式以及本地化和保存到Hive的方法。

摘要由CSDN通过智能技术生成

【场景】

1、数据导入：结构化数据，hive中

2、代码提交：

(1) spark-shell的方式

(2) spark-submit的方式，代码已经编译好。

(3) zeppelin，spark编码的方式

3、数据输出：

(1) csv,json

(2) 本地化，hive

【实现】

1、spark-shell：

交互式编程，涉及到外包包依赖时，将需要的jar包都下载好，spark-shell执行的时候，指定依赖的jars。

一般在idea里面写好代码，粘到spark-shell分步执行调试。

./spark-shell --master yarn-client --jars /home/xx/xx/spark-csv_2.10-1.5.0.jar,/home/xx/xx/commons-csv-1.1.jar,/home/xx/xx/univocity-parsers-1.5.1.jar --num-executors 6 --executor-memory 4g

2、spark-submit：

(1)、直接编码，依赖包直接包含。

(2)、通过spark-submit提交任务，指定执行的jar包，主类，调节资源分配等参数。

(3)、spark job相关的配置，如果在spark-submit中和jar包代码中都设置了，会使用代码中的设置。

./spark-submit --class xxx --driver-memory 4g --num-execu

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

alexpeace

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Sqoop导入导出原理与代码实例讲解

程序员光剑

06-02

751

Sqoop导入导出原理与代码实例讲解 1. 背景介绍 1.1 大数据时代的数据交换需求在大数据时代,数据已经成为企业的核心资产之一。企业需要从各种异构数据源中获取数据,并将这些数据导入到大数据平台中进行分析和处理。同时,处理

Spark导出

a2261504394的专栏

11-08

656

3 Spark导出在使用Spark之前，先将编译好的classes导出为jar比较好，可以 $ sbt/sbt assembly 将Spark及其依赖包导出为jar，放在 core/target/spark-core-assembly-0.4-SNAPSHOT.jar 可以将该jar添加到CLASSPATH里，

参与评论您还未登录，请先登录后发表或查看评论

Spark SQL简单操作演示（含导出表）

就问你吃不吃药

10-27

1125

Spark SQL前身是Shark，由于Shark对于Hive的太多依赖制约了Spark的发展，Spark SQL由此产生。 Spark SQL只要在编译的时候引入Hive支持，就可以支持Hive表访问，UDF，SerDe，以及HiveQL/HQL 启动spark-sql$>spark-sql 16/05/15 21:20:55 WARN NativeCodeLoader: Unable

spark-hbase-BulkLoad

最新发布

celltobig的专栏

08-14

578

方法2: BulkLoad 的方式导入，spark 读取 hive 表，写入hbase 需要的 HFile 类型的文件，写在 hdfs 上面，再使用BulkLoad ，把数据加载移动到hbase表中。缺点: 数据量较大会建成hbase regionserver 压力大，可能会导致regionserver not online ，宕机，造成服务不可用的状态，数据量小没事。方法1：先建 hbase表，再建hbase的外表hive表，做好字段映射，起一个MR 任务写入 hive外表，

spark sql 导出数据

weixin_30702887的博客

05-04

1226

如果用户希望在spark sql 中，执行某个sql 后，将其结果集保存到本地，并且指定csv 或者 json 格式，在 beeline 中，实现起来很麻烦。通常的做法是将其create table tempTable as *** ，通过将结果集写入到新的临时表中，进行保存，然后再通过其他方式export 到本地。这种方式，对于 HDFS 是可行到，但是如果数据是保存在像SequoiaDB ...

spark-shell - 将结果保存成一个文件

weixin_34290390的博客

01-27

1439

sqlContext.sql(""" SELECT user_no,cust_id,oper_code FROM cui.operation_data_android WHERE user_no <> 'null'""").repartition(1).saveAsTextFile("/out.txt") 转载于:https://www.cnblogs.com/t...

spark保存取数结果为csv文件技巧

qq_34669699的博客

03-02

809

生成的取数结果含有纯数字，在保存为csv文件并用Excel或WPS查看结果时，数字会以科学表达式，或Excel默认的单元格格式展示，非常的不友好。

头歌数据导入和导出.rar

06-13

在大数据场景下，可能涉及到Hadoop、Spark等分布式计算框架的数据导入导出，这需要对这些技术有一定了解。总的来说，头歌数据导入和导出是一个涵盖广泛的主题，包括但不限于数据格式转换、数据预处理、导入导出...

Sqoop导入与导出数据

m0_51691291的博客

12-06

5134

1、Sqoop部署基础环境：hadoop完全分布式集群、hive、zookeeper、hbase 1.1、下载安装包官网下载安装包：官网链接地址将下载好的安装包上传至Linux，解压并修改名称 1.2、修改配置文件进入Sqoop的conf目录下复制文件并重命名 cp sqoop-env-template.sh sqoop-env.sh 修改sqoop-env.sh文件，并添加如下内容，具体路径应灵活修改 export HADOOP_COMMON_HOME=/usr/local/soft/hado

Hive/Spark 整库导出/导入脚本

Laurence的技术博客

08-21

572

1. 整库导出为一个SQL文件 database="<your-database-name>" cat << EOF > $database.sql drop database if exists $database cascade; create database if not exists $database; use $database; EOF for table in $(beeline -n hadoop -u jdbc:hive2:// --showHeade

spark shell操作

qq_42680202的博客

11-29

464

Spark Shell操作 Spark Shell操作任务目标 1.了解Scala语言的基本语法 2.了解Spark shell数据处理的原理 3.了解Spark算子的使用 4.了解Spark shell和MapReduce对数据处理的不同点相关知识 Spark shell是一个特别适合快速开发Spark程序的工具。即使你对Scala不熟悉，仍然可以使用这个工具快速应用S...

将SparkSql查询到的结果保存到本地

zhangbw's blog

10-28

4589

Spark.sql查询后得到一个DataFrame对象 val df: DataFrame = spark.sql("select * from student") 将结果保存到本地【格式为csv格式】 df.write.format("csv").save("output") 补充：如果sql语句中涉及到分区，那么保存的文件个数与分区的个数相同。如果想将查询的结果保存到一个文件中，可以使用下面的方法解释：使用repartition方法将分区个数设置为一个 df.repartitio

spark-SQL-shell操作(超级详细)

互联网知识分享

05-15

1454

用户可以先定义一个简单的Schema，然后逐渐的向Schema中增加列描述。需要注意的是，这些保存模式不使用任何锁定，不是原子操 ,SaveMode详细介绍如下表.加载文件夹,其实原本是加载文件的，主要是这个文件名的名字太长，所以就提供了可以使用文件夹。只读取需要的列，支持向量运算，能够获取更好的扫描。）查看 .parquet格式的数据，显示乱码，这个格式如何编写就不演示了。可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。是自定义的,是标记用的，也是一个文件名，但等号是一定要有的，

Spark：写入CSV文件

03-31

3685

几周前，我写了我是如何使用Spark探索芝加哥市犯罪数据集的，并得出了每起犯罪的数量，我想将其写入CSV文件。 Spark提供了一个saveAsTextFile函数，该函数允许我们保存RDD的代码，因此我将代码重构为以下格式，以允许我使用它： import au.com.bytecode.opencsv.CSVParser import org.apache.spark.rdd.RD...

hive&&beeline 数据导入导出

热门推荐

applexiaoli的专栏

08-31

1万+

hive&&beeline 数据导入导出hive数据导入方式从本地文件系统中导入数据到Hive表 hive -e "load data local inpath 'localpath' into table xxx;" 从HDFS上导入数据到Hive表 hadoop dfs -put localpath 从别的表中查询出相应的数据并导入到Hive表中创建表的时候通过从别的表

spark读取csv文件

Silence的博客

10-10

5893

spark读取csv文件，如果用textFile直接读取也可以，但是对于后续的操作不太方便。所以要采用sqlContext来读取csv文件在shell中直接使用sqlContext 时会报错，所以启动时要添加依赖包 ./spark-shell --packages com.databricks:spark-csv_2.10:1.3.0 这样就直接进入了shell，然后加载hdfs上的csv

Hive 导出数据到 CSV 文件

JIE的博客 --- moon_coder

11-12

6206

spark 导出的是一个目录，我们需要拿到目录下的 csv 文件。最后，按题目要求改成指定路径与名称就可以啦，这里就不操作了。在 spark-shell 中导出。直接在 Hive 界面中进行操作。：以带表头的方式查询。的就是我们的结果文件。

hive数据导入spark

07-11

Hive和Spark都是Apache的大数据处理框架，它们可以协同工作来处理大规模的数据分析任务。Hive是一个基于Hadoop的数据仓库工具，它提供了一个SQL-like查询界面，用于存储、管理和分析大量结构化数据。而Spark则是一个通用的并行计算框架，支持实时流处理和机器学习等多种计算模式。如果你想要从Hive导入数据到Spark，主要有以下几个步骤： 1. **创建外部表**：首先，在Hive中创建一个指向Spark DataFrame或RDD（Resilient Distributed Dataset）的位置的外部表。这允许Hive连接到Spark的元数据，并将查询结果直接导出到Spark的数据源。 ```sql CREATE EXTERNAL TABLE hive_table_name (columns ...) LOCATION 'path_to_spark_data'; ``` 2. **加载数据**：然后在Spark环境中，你可以读取这个Hive表就像读取本地文件系统一样。 ```scala val sparkDF = spark.read.format("hive").load("path_to_hive_table") ``` 3. **转换和分析**：完成数据导入后，可以在Spark上执行更复杂的分析操作，如聚合、过滤、 Join 等。 4. **持久化或保存结果**：最后，你可以选择将Spark DataFrame的结果持久化到HDFS或其他存储系统，以便于后续查询或进一步分析。需要注意的是，这种方式通常适用于一次性的数据导入和查询，如果需要频繁交互或者实时更新，可能会更倾向于直接将数据加载到Spark中，而不是通过Hive作为中介。