【spark源码系列】pyspark.sql.Row介绍和使用示例

44 篇文章 6 订阅

0、Spark SQL和DataFrames重要的类有:

  • pyspark.sql.SQLContext: DataFrame和SQL方法的主入口
  • pyspark.sql.DataFrame: 将分布式数据集分组到指定列名的数据框中
  • pyspark.sql.Column :DataFrame中的列
  • pyspark.sql.Row: DataFrame数据的行
  • pyspark.sql.HiveContext: 访问Hive数据的主入口
  • pyspark.sql.GroupedData: 由DataFrame.groupBy()创建的聚合方法集
  • pyspark.sql.DataFrameNaFunctions: 处理丢失数据(空数据)的方法
  • pyspark.sql.DataFrameStatFunctions: 统计功能的方法
    -pyspark.sql.functions DataFrame:可用的内置函数
  • pyspark.sql.types: 可用的数据类型列表
  • pyspark.sql.Window: 用于处理窗口函数

1、class pyspark.sql.Row:DataFrame中的一行,其中的字段可以像属性一样访问。

Row可以用来通过使用命名参数来创建一个行对象,字典将按名称排序

>>> from pyspark.sql import Row
>>> row = Row(name="Tom", age=11)
>>> row
Row(age=11, name='Tom')
>>> row['name'], row['age']
('Alice', 11)
>>> row['name']
'Tom'
>>> row['age']
11
>>> row.name, row.age
('Tom', 11)
>>> row.name
'Tom'
>>> row.age
11

 2、Row也可以用来创建另一个Row像类一样,然后它可以被用来创建Row对象

>>> Person = Row("name", "age")
>>> Person
<Row(name, age)>
>>> Person.name
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/bin/hadoop/software/spark/python/pyspark/sql/types.py", line 1267, in __getattr__
    idx = self.__fields__.index(item)
  File "/usr/bin/hadoop/software/spark/python/pyspark/sql/types.py", line 1263, in __getattr__
    raise AttributeError(item)
AttributeError: __fields__
>>> Person("Tom", 11)
Row(name='Tom', age=11)
>>> obj_person=Person("Tom", 11)
>>> obj_person.name
'Alice'
>>> obj_person.age
11

3、asDict(revursice=False):作为字典返回

recursive:将嵌套的Row转换为字典(默认为False)

>>> Row(name="Tom", age=11).asDict() == {'name': 'Tom', 'age': 11}
True
>>> Row(name="Tom", age=11).asDict()
{'age': 11, 'name': 'Tom'}
>>> row = Row(key=1, value=Row(name='a', age=2))
>>> row.asDict() == {'key': 1, 'value': Row(age=2, name='a')}
True
>>> row.asDict()
{'value': Row(age=2, name='a'), 'key': 1}
>>> row.asDict(True) == {'key': 1, 'value': {'name': 'a', 'age': 2}}
True
>>> row.asDict(True)
{'value': {'age': 2, 'name': 'a'}, 'key': 1}

4、spark sql返回的结果就是Row对象类型

import os

import sys

from pyspark import SparkContext, SparkConf

from pyspark.sql import HiveContext, Row

reload(sys)

sys.setdefaultencoding("utf-8")

jobName = 'req_put_monthly_summary'

conf = SparkConf().setAppName(jobName).setMaster("yarn-client")

sc = SparkContext(conf=conf)

hiveContext = HiveContext(sparkContext=sc)

month_put_req_pv_uv_list = hiveContext.sql(sqlQuery=sql_utils.sql_get_month_summary_indices.strip()).collect()

print month_put_req_pv_uv_list  # spark sql返回的结果就是Row对象类型

'''

[Row(month=u'201911', partnercode=u'aluc', month_req_pv=17358472392, month_put_pv=282363523, month_req_uv=145069532, month_put_uv=5740328),

Row(month=u'201911', partnercode=u'tt_out', month_req_pv=13331963927, month_put_pv=2136909552, month_req_uv=340156907, month_put_uv=93442531)]

'''

参考:https://www.programcreek.com/python/example/100657/pyspark.sql.Row
           https://www.jianshu.com/p/103406e59cd3 

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值