spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。
在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。
首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。
而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中。
1、union、unionAll、unionByName,row 合并(上下拼接)
data_all = data_neg.unionByName(data_pos)
2、dataframe 样本抽样
data_all.sample(False, 0.5, 1000).count()
3、条件过滤
data_all.filter("label >= 1").count()
4、注册为临时表,再使用spark.sql 对dataframe进行操作
res = predictions.select("user_log_acct", split_udf('probability').alias('probability'))
res.registerTempTable("tmp")
spark.sql("insert overwrite table dev.dev_result_temp select user_log_acct,probability from tmp")
spark.stop()
创建和保存spark dataframe:
spark.createDataFrame(data, schema=None, samplingRat