1.colRegex(colName):
"""
Selects column based on the column name specified as a regex and returns it
as :class:`Column`.
"""
用正则表达式的方式返回我们想要的列。
df.show()
# 这里注意`的使用
df.select(df.colRegex("`(grade)+.+`")).show()
上面的(grade)是一个整体,“."表示任意字符,”+“表示前面出现的任意字符出现一次以上,既有一个以上的任意字符。
2.collect()
"""Returns all the records as a list of :class:`Row`."""
返回DataFrame中的所有数据,注意数据量大了容易造成Driver节点内存溢出!
data = df.collect()
for i in data:
print(i)
3.columns
"""Returns all column names as a list."""
以列表的形式返回DataFrame的所有列名,这个方法是@property
print(df.columns)
4.count()
"""Returns the number of rows in this :class:`DataFrame`."&#