【spark】5.数据读取存储

最新推荐文章于 2022-05-15 12:47:45 发布

fxflyflyfly

最新推荐文章于 2022-05-15 12:47:45 发布

阅读量209

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/fxflyflyfly/article/details/103069086

版权

spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

文章目录

分类
文件格式
Spark SQL
- Apache Hive
- JSON
数据库
- java数据库
- hbase

文件格式

文本文件

input = sc.textFile(path) # 读取
input.saveAsTextFile(outputpath) # 存储

JSON

import json
data = input.map(lambda x: json.loads(x))
data.saveAsTextFile(outputpath)

逗号分隔值与制表符分隔值

csv

import csv
import StringIO
def loadRecord(line):
	'解析一条CSV记录'
	input = StringIO.StringIO(line)
	reader = csv.DictReader(input, fieldnames = ['name','num'])
	return reader.next()
input = sc.textFile(inputFile).map(loadRecord)

SequenceFile

data = sc.sequenceFile(inFile,"org.apache.hadoop.io.Text","org.apache.hadoop.io.IntWritable")

对象文件

python无法使用

Hadoop输入输出格式

使用newAPIHadoopRDD()方法

Spark SQL

Apache Hive

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
rows = hiveCtx.sql("SELECT name,age FROM users")
firstRow = rows.first()
print(firstRow.name)

JSON

tweets = hiveCtx.jsonFile("a.json")
tweets.registerTempTable("tweets")
result = hiveCtx.sql("SELECT user.name, text FROM tweets")

数据库

java数据库

df = spark.read.format('jdbc').options(
    url='jdbc:mysql://127.0.0.1',
    dbtable='mysql.db',
    user='root',
    password='123456' 
    ).load()
df.show()

hbase

host = 'localhost'
table = 'student'
conf = {"hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": table}
keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"
hbase_rdd = sc.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat","org.apache.hadoop.hbase.io.ImmutableBytesWritable","org.apache.hadoop.hbase.client.Result",keyConverter=keyConv,valueConverter=valueConv,conf=conf)