Spark1.6 sparkR的API 中文一览

最新推荐文章于 2021-02-26 12:04:18 发布

芹菜学长

最新推荐文章于 2021-02-26 12:04:18 发布

阅读量968

点赞数

分类专栏： sparkR 文章标签： R sparkR API

sparkR 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

前提摘要：
第一次翻译api，然后本人的英文也不是很好，还是尝试翻译如下：

原文的链接
sparkR1.6DataFrame的api英文文档

文章目录

DataFrame

描述：
DataFrame能够被createDataFrame,read.json,table 这样的函数创建

用法:
dataFrame(sdf,isCached = FALSE)
groupedData(sgd)

参数：
sdf:	                         一个对scala DataFrame的支持的java对象引用
isCached:   TRUE                 dataFrame被缓存

例子：
## Not run:
## sc <- sparkR.init()
## sqlContext <- sparkRSQL.init(sc)
## df<-createDataFrame(sqlContext.faithful)
## End(Not run)

GroupedData

描述：
GroupedDatas能够被在dataFrame上使用groupBy()的函数创建

参数:
sgd:         一个对scala的dataframe支持的java对象引用

PipelineModel-class

描述:
表示PipelineModel的类

参数:
model     一个队scala PipelineModel支持的java对象引用

abs

描述:
计算绝对值

用法：
签名Column的方法
abs(x)

例子
## Not run:abs(df$c)

acos

描述:
计算给定值的反余弦函数，返回的角度在0到pi

用法:
方法应用于 列

例子：
## Not run:  acos(df$c)

add_months

描述:
返回一个起始日期之后几个月的日期

用法：
签名   Column,numeric'方法
add_months(y,x)

agg

描述：
通过指定一个列表的列来计算聚合
计算每个组的行数，生成的DataFrame也将包含分组列

用法:
## 签名  DataFrame方法
agg(x,...)
## S4 签名 DataFrame方法
summarize(x,....)
agg(x,...)
##  S4 签名 'GroupedData'方法
count(x)

参数：
x ：一个DataFrame
x ：一个GroupedData

例子：
## Not run:
## D count(groupBy(df,"name"))
## End(Not run)

alias

描述：
给列设置一个别名

用法:
## S4 签名 Cloumn 的方法
alias(object,data)

approxCountDistinct

描述：
聚合功能：返回一个组中不重复项目的近似值
大概计算不重复的

用法：
## S4 签名  Cloumn 的方法
approxCountDistinct(x,rsd=0.05)
## S4  签名 Cloumn 的方法
approxCountDistinct(x,rsd=0.05)
approxCountDistinct(x,...)

值：
一个组中不重复项目的近似值

例子：
examples
## Not run:approxCountDistinct(df$c)
## Not run:approxCountDistinct(df$c,0.02)

Arrange

描述：
指定DataFrame的列进行排序

用法
:## S4 签名  DataFrame,Column 的 方法
arrange(x,col,...)
## S4 签名 DataFrame，character 的方法
arrange(x,ccol,...,decreasing = FALSE)
## S4 签名 DataFrame,characterOrCloumn 的方法
orderBy(x,col)
arrange(x,col,...)
orderBy(x,col)

参数：
x              一个要被排序的DataFrame
col            一个字符或列对象向量，指定要排序的字段
decreasing     一个逻辑参数，指定字符向量列的排序顺序

值：
一个DataFrame，所有的元素都被排序了

例子：
## Not run:
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext,path)
##D arrange(df,df$col1)
##D arrange(df,asc(df$col1),desc(abs(df$col2)))
##D arrange(df,"col1",descreasing = TRUE)
##D arrange(df,"col1","col2",decreasing=c(TRUE,FALSE))
## End(Not run)

array_contains

描述
如果数组里面包含这个值返回True

用法：
## S4  签名  column 的方法

参数：
x           一个列
value       一个要在检查是否在列中的值

例子
## Not run：array_contains(df$c,1)

as.data.frame

将数据从DataFrame下载到data,frame中

描述：
这个函数将DataFrame的内容下载到R的data,frame中，由于data,frame保存在内存中，因此确保系统中有足够的内存容纳此内容。

用法
## S4 签名 ‘DataFrame’ 的方法
as.data.frame(x, row.names = NULL,optional = FALSE,...)
as.data.frame(x, row.names = NULL, optional = FALSE, ...)

参数:
x     一个DataFrame

值：
一个data.frame

例子：
## Not run:
##D 
##D irisDF <- createDataFrame(sqlContext, iris)
##D df <- as.data.frame(irisDF[irisDF$Species == “setosa”, ] )
## End(Not run)

Ascii

描述：
计算字符串列的第一个字符的数值，并且返回一个int的列

用法：
## S4 签名 'Column' 的方法
ascii(x)
ascii(x)

例子；
## Not run: \dontrun {ascii(df$c)}

asin

描述：
计算给定值的反正弦函数，返回角度值的范围在-pi/2 ~ pi/2之间

用法：
## S4 签名 'Column' 的方法
asin(x)

例子:
## Not run: asin(df$c)

atan

描述:
计算给定值的反正切值

用法:
##S4 签名 Column 的方法
atan(x)

例子:
## Not run:atan(df$c)

atan2

描述：
返回从直角坐标（x，y）到极坐标（r，theta）的转换的角度θ

用例：
## S4 签名  'Column'的方法
atan2(y,x)

例子；
## Not run：atan2(df$c, x)

attach

将DataFrame附加到R搜索路径

描述:
指定的DataFrame附加到R搜索路径,这意味着当评估变量时，
R会搜索DataFrame，因此，只需要提供名称就可以访问DataFrame的列

用法:
## S4 签名 'DataFrame' 的方法
attach(what,pos = 2,name = deparse(subsitute(what)),warn.conflicts = TRUE)
attach(what.pos = 2L,name = deparse(substitute(what)), warn.conflicts = TRUE)

参数:
what            (DataFrame) 要附加的DataFrame
pos             (integer)在search()中指定位置以进行附加
name            (character)用于附加DataFrame的名称。以package开头:被保存在库中
warn.conflicts  (logical) 如果为TRUE，打印有关附加数据库的冲突警告，c除非该DataFrame包含一个对象

例子:
## Not run:
##D attach(irisDf)
##D summary(Speal_Width)
## End(Not run)

avg

描述:
聚合函数: 返回组中值的平均值

## S4 签名 'Column' 的方法
avg(x)
avg(x,...)

例子:
## Not run:avg(df$c)

base64

描述：
计算二进制列的BASE64编码并将其作为字符串列返回，这与unbase64相反。

用法
## S4 签名 'Column' 的方法
base64(x)
base64(x)

例子；
## Not run：base64(df$c)

between

描述:

测试列是否在下限和上限之间，包括边界（这里是我猜测的,原文这句话是：Test if the column is between the lower bound and upper bound, inclusive）

用法:
## S4 签名 'Column'的方法
between(x,bounds)

参数:
bounds   下限和上限

bin

描述：
一个返回给定long类型字符串表示形式的二进制值的表达式，举个例子
bin("12") 返回 "1100"

用法
## S4签名 'Colum' 的方法
bin(x)
bin(x)

例子:
## Not run:bin(df$c)

bitwiseNOT

描述
按位计算NOT

用法：
## S4 签名  'Column'的方法
greatest(x,...)
greatest(x,...)

例子:
## Not run:greatest(df$c,df$d)

cache

描述:
保留默认存储级别(MEMORY_ONLY)

用法:
S4 签名 ‘DataFrame' 的方法
cache (x)

参数：
x  一个SparkSQL DataFrame

例子:
## Not run:
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext,path)
##D cache(df)
## End(Not run)

Cache Table

描述:
将指定的表缓存到内存里面

用法:
cacheTable(sqlContext,tableName)

参数:
sqlContext     使用SQLContext
tableName      即将用于缓存的表名

值:
DataFrame

例子:
## Not run:
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext,path)
##D registerTempTable(df,"table")
##D cacheTable(sqlContext, "table")
## End(Not run)

cancelJobGroup

取消指定组的活动作业

描述:
取消指定组的活动作业

用法;
cacelJobGroup(sc,groupId)

参数
sc         存在的spark Context
groupId    要取消的工作组的ID

例子:
## Not run:
##D sc <- sparkR.init()
##D cancelJobGroup(sc,"myJobGroup")
## End(Not run)

cast

描述：
将列转化为其他数据类型

用法:
## S4 签名 'Column'的方法
cast(x,dataType)

例子:
## Not run:
##D cast(df$age,"string")
##D cast(df$name,list(type = 'array',elementType="byte",containsNull =TRUE))
## End(Not run)

cbrt

描述：
计算给定值的cube-root

用法:
## S4 签名 'Column'的方法
cbrt(x)
cbrt(x)

例子:
## Not run:cbrt(df$c)

ceil

描述：
计算给定值的上限

用法:
## S4 签名 'Column'的方法
ceil(x) 
## S4 签名 'Column'的方法
ceiling (x)
ceil(x)

例子:
## Not run: ceil(df$c)
## Not run: ceiling(df$c)

Clear Cache

描述:
从内存缓存中删除所有缓存的表

用法:
clearCache(sqlContext)

参数:
sqlContext   使用SQLContext

例子：
## Not run:
##D clearCache(sqlContext)
## End(Not run)

clearJobGroup

描述:
清除当前作业组ID及其说明

用法
clearJobGroup(sc)

参数:
sc     存在的spark context

例子:
## Not run:
##D sc <- sparkR.init()
##D clearJobGroup(sc)
## End(Not run)

col

描述:
虽然scala函数具有“col”函数，但我们不会在SparkR中公开它，
因为我们不想与R base包中的“col”函数冲突，
我们还有“column”函数导出，这是别名
返回基于给定列名称的列。

用法:
## S4 method for signature 'character'
column(x)
column(x)

例子:
## Not run: column(df)

collect

描述:
收集Spark DataFrame的所有元素并将它们强制转换为R data.frame。

用法:
##S4 签名 ‘DataFrame’的方法

参数:
x                             一个SparkSQL DataFrame
stringsAsFactors             (Optional) 一个逻辑，指示是否应将字符串列转换为因子。默认为FALSE

例子：
## Not run:
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/fiile.json"
##D df <- read.json(sqlContext,path)
##D collected <- collect(df)
##D firstName <- collected[[1]]$name
## End(Not run)

coltypes

描述:
获取DataFrame的列类型
设置DataFrame的列类型

用法:
## S4 签名 'DataFrame'的方法
coltypes (x)
## S4 签名'DataFrame，character'的替换方法
coltypes(x) <- value
coltpyes(x) 
coltpyes(x) <-value

参数:
x             一个SparkSQL DataFrame
value         具有给定DataFrame的目标列类型的字符向量。列类型可以是整数，数字/双精度，字符，逻辑或NA之一，以使该列保持原样。
x             一个SparkSQL DataFrame

值:
value具有给定DataFrame的列类型的字符向量

例子:
## Not run: 
##D irisDF <- createDataFrame(sqlContext, iris)
##D coltypes(irisDF)
## End(Not run)
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D coltypes(df) <- c("character", "integer")
##D coltypes(df) <- c(NA, "numeric")
## End(Not run)

column

描述:
列的类别支持在DataFrame列上的一元，二进制 操作

用法:
asc(x)
between(x, bounds)
cast(x,dataType)
contains(x,...)
desc(x)
endsWith(x,...)
getField(x,..)
getItem(x,...)
isNaN(x)
isNull(x)
isNotNull(x)
like(x,...)
rlike(x,...)
startsWith(x,...)
when(condition, value)
otherwise(x,value)

拓展:
jc

columns

描述：
所有的列名称作为一个列表返回

用法:
## S4 签名 'DataFrame'的方法
columns(x)

## S4 签名 'DataFrame' 的方法
names(x)

## S4 签名 'DataFrame'的替换方法
names(x) <- value

## S4 签名 'DataFrame'的方法
colnames(x)

## S4 签名 'DataFrame,character'的替换方法
colnames(x) <- value

colnames(x, do.NULL = TRUE, prefix = "col")

colnames(x) <- value

参数：
x    一个SparkSQL DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D columns(df)
##D colnames(df)
## End(Not run)

concat

描述:
将多个输入字符串列连接到一个字符串列中。

用法:
## S4 签名'Column' 的方法
concat(x,...)
concat(x,...)

例子:
## Not run: concat(df$strings, df$strings2)

concat_ws

描述:
使用给定的分隔符将多个输入字符串列连接到一个字符串列中。

用法:
## S4 签名 ‘character,Column’ 的方法 
concat_ws(sep,x,...)
concat_ws(sep,x,...)

例子:
## Not run: concat_ws('-', df$s, df$d)

conv

描述:
将字符串列中的数字从一个基数转换为另一个基数。

用法:
## S4 签名'Column,numeric,numeric' 的方法
conv(x,fromBase,toBase)
conv(x,fromBase,toBase)

例子:
## Not run: conv(df$n, 2, 16)

corr

描述:
计算两列的Pearson(皮尔逊)相关系数

例子:
## Not run: corr(df$c, df$d)

cos

描述:
计算给定值的余弦值。

用法:
## S4 签名'Column'的方法
cos(x)

例子:
## Not run: cos(df$c)

cosh

描述：
计算给定值的双曲余弦值。

用法:
## S4 签名'Column’的方法
cosh(x)

例子:
## Not run: cosh(df$c)

count

描述:
聚合函数：返回组中的项目数。
聚合函数：返回组中的项目数。

用法:
## S4 签名'Column' 的方法
count(x)
## S4 签名'Column'的方法
n(x)

例子:
## Not run: count(df$c)
## Not run: n(df$c)

countDistinct

描述:
计算非重复值
聚合函数:返回组中不同项的数量

用法:
## S4 签名‘Column’的方法
countDistinct(x,...)
## S4 签名 'Column'的方法
n_distinct(x,...)
countDistinct(x,...)
nn_distinct(x,...)

值:
在一个组里面不同项目的数量

例子::
## Not run: countDistinct(df$c)
## Not run: n_distinct(df$c)

crc32

描述:
计算二进制列的循环冗余校验值（CRC32）并将该值作为bigint返回。

使用：
## S4 签名'Column' 的方法
crc32(x)
crc32(x)

例子:
## Not run: crc32(df$c)

createDataFrame

描述:
R data.frame 或者list转换成DataFrame

使用:
createDataFrame(sqlContext,data,schema = NULL,samplingRatio = 1)
as.DataFrame(sqlContext,data,schema = NULL ,samplingRatio = 1)

参数:
sqlContext    一个SQLContext
data          一个RDD或list 或data.frame
schema        列名列表或命名列表（StructType），可选

值：
一个DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df1 <- as.DataFrame(sqlContext, iris)
##D df2 <- as.DataFrame(sqlContext, list(3,4,5,6))
##D df3 <- createDataFrame(sqlContext, iris)
## End(Not run)

createExternalTable

描述:
基于数据源中的数据集创建外部表，返回与外部表关联的DataFrame

用法:
createExternalTable(sqlContext,tableName,path = NULL,source = NULL,...)
参数:
sqlContext   使用SQLContext
tableName    一个表的名称
path         要加载的文件的路径
source      外部数据源的名称

细节:
数据源由“source”和一组选项（...）指定。
如果未指定“source”，则将使用由“spark.sql.sources.default”配置的默认数据源。

值:
DataFrame

例子：
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df <- sparkRSQL.createExternalTable(sqlContext, "myjson", path="path/to/json", source="json")
## End(Not run)

cume_dist

描述:
窗口函数：返回窗口分区中值的累积分布，即当前行下面的行的分数。

使用:
## S4 签名'missing'的方法
cume_dist()
cume_dist(x)

细节:
N =分区中的总行数cume_dist（x）= x / N之前（和包括）x的值
这相当于SQL中的CUME_DIST函数。

例子:
## Not run: cume_dist()

date_sub

描述：
返回'start'后'几天'的日期

用法:
## S4 签名'Column,numeric'
date_add(y,x)
date_add(y,x)

例子:
## Not run: date_add(df$d, 1)

datediff

描述：
返回从“开始”到“结束”的天数。

使用:
## 签名‘Column'的方法
datediff(y,x)

例子:
## Not run: datediff(df$c, x)

dayofmonth

描述:
从给定的日期/时间戳/字符串中提取当月的日期。

使用
## S4 签名'Column' 的方法
dayofmonth(x)

例子:
## Not run: dayofmonth(df$c)

dayofyear

描述:
从给定的日期/时间戳/字符串中提取一年中的某一天。

使用:
## S4 签名‘Column'的方法’
dayofyear(x)

例子:
## Not run: dayofyear(df$c)

decode

描述:
使用提供的字符集（“US-ASCII”，“ISO-8859-1”，“UTF-8”，“UTF-16BE”，“UTF-16LE”之一）计算二进制字符串中的第一个参数，
'UTF-16'）。

使用
## S4 签名 ‘Cloumn,character’的方法

例子:
## Not run: decode(df$c, "UTF-8")

dense_rank

描述:
窗口函数:返回窗口分区内的行级别，没有任何间隙。
rank和dense_rank之间的区别在于，当存在关联时，dense_rank不会在排序顺序中留下空白。
也就是说，如果你使用dense_rank对比赛进行排名并且有三个人并列第二名，那么你会说三个人排在第二位，而下一个人排在第三位。

使用:
## S4 签名'missing'的方法
dense_rank()

细节:
这相当于SQL中的DENSE_RANK函数。

例子:
## Not run: dense_rank()

dim

描述:
返回DataFrame的维数（行数和列数）

使用:
## S4 签名'DataFrame'的方法
dim(x)

参数:
x   一个sparkSQL DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D dim(df)
## End(Not run)

distinct

描述：
返回包含此DataFrame中不同行的新DataFrame。

使用:
## S4 签名‘DataFrame’的方法

参数:
x     一个SparkSQL  DataFrame

例子：
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D distinctDF <- distinct(df)
## End(Not run)

dropTemporaryTable

描述：
删除目录中具有给定表名的临时表。
如果表之前已经缓存/持久化，那么它也是非持久化的。

使用：
dropTempTable(sqlContxt,tableName)

参数:
sqlContext   使用的SQLContext
tableName    SparkSQL表中要删除的表名称

例子：
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df <- read.df(sqlContext, path, "parquet")
##D registerTempTable(df, "table")
##D dropTempTable(sqlContext, "table")
## End(Not run)

dtypes

描述:
将所有列名称及其数据类型作为列表返回

使用:
## S4 签名‘DataFrame'的方法

参数:
x   一个SparkSQL DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D dtypes(df)
## End(Not run)

encode

描述；
使用提供的字符集（'US-ASCII'，'ISO-8859-1'，'UTF-8'，'UTF-16BE'，'UTF-16LE'之一）从字符串计算二进制文件中的第一个参数，
'UTF-16'）。

使用：
## S4 签名‘Column.character’的方法
encode(x, charset)

例子；
## Not run: encode(df$c, "UTF-8")

except

描述:
返回包含此DataFrame中的行但不包含在另一个DataFrame中的新DataFrame。
这相当于SQL中的“EXCEPT”

使用:
## S4 签名‘DataFrame,DataFrame'’
except(x,y)

参数；
x  一个Spark DataFrame
y  一个Spark DataFrame

值:
一个包含except操作结果的DataFrame。

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df1 <- read.json(sqlContext, path)
##D df2 <- read.json(sqlContext, path2)
##D exceptDF <- except(df, df2)
## End(Not run)

exp

描述:
计算给定值的指数

使用:
## S4 签名'Column'
exp(x)

例子:
## Not run: exp(df$c)

explain

描述:
将逻辑和物理Catalyst计划打印到控制台以进行调试。

使用:
## S4  签名'DataFrame'的方法
explain(x,extended = FALSE)
explain(x,...)

参数:
x           一个SparkSQL DataFrame
extended    如果extended为False，则explain（）仅打印物理计划

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D explain(df, TRUE)
## End(Not run)

explode

描述；
为给定数组或映射列中的每个元素创建一个新行。

使用:
## S4 签名'Column'的方法
explode(x) 

例子:
## Not run: explode(df$c)

expm1

描述:
计算给定值减去1的指数

使用:
## S4 签名'Colum'的方法
expm1(x)

例子:
## Not run: expm1(df$c)

expr

描述:
将表达式字符串解析为它所代表的列，类似于DataFrame.selectExpr

使用
## S4 签名‘character’的方法

例子:
## Not run: expr('length(name)')

factorial

描述；
计算给定值的阶乘

使用；
factorial(x)

例子；
## Not run: factorial(df$c)

Filter

描述：
根据给定条件过滤DataFrame的行。

使用；
## S4 签名 'DataFrame,characterOrColumn'的方法
filter(x,condition)
## S4签名'DataFrame,characterOrColumn‘的方法’
where(x,condition)

filter(x,condition)
where(x,condititon)

参数:
x            一个被排序的DataFrame
condition    他有条件过滤。这可以是Column表达式或包含SQL语句的字符串

值:
仅包含满足条件的行的DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D filter(df, "col1 > 0")
##D filter(df, df$col2 != "abcdefg")
## End(Not run)

first

描述:
返回DataFrame的第一行
聚合函数:返回组中第一个值

用法:
## S4 签名的'DataFrame'的方法
first(x)

## S4 签名'Column'的方法
first(x)

参数:
x   一个sparkSQL  DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D first(df)
## End(Not run)
## Not run: first(df$c)

floor

描述;
计算给定值的下限

用法:
## S4 签名'Column‘的方法
floor(x)

例子:
## Not run:floor(df$c)

format_number

描述:
将数字列y格式化为'＃,###,###,##'等格式，舍入到x小数位，并将结果作为字符串列返回。

用法:
## S4 签名‘Column,numeric’的方法
format)number(y , x)

format_number(y ,x)

参数:
y   格式化的列
x   要格式化的小数位数

细节:
如果x为0，则结果没有小数点或小数部分。
如果x <0，则结果为null。```

例子:
## Not run: format_number(df$n, 4)

format_string

描述:
以printf-style格式化参数并将结果作为字符串列返回。

用法:
## S4 签名'character,Column'的方法
format_string(format ,x ,...)

例子:
## Not run: format_string('%d %s', df$a, df$b)

from_unixtime

描述:
将unix epoch（1970-01-01 00:00:00 UTC）的秒数转换为表示给定格式的当前系统时区中该时刻的时间戳的字符串。

用法:
## S4 签名'Column'的方法
from_unixtime(x,format = 'yyyy-MM-dd  HH:mm:ss")
from_unixtime(x,...)

例子:
## Not run: 
##D from_unixtime(df$t)
##D from_unixtime(df$t, 'yyyy/MM/dd HH')
## End(Not run)

from_utc_timestamp

描述:
假设给定的时间戳是UTC并转换为给定的时区。

用法:
## S4 签名'Column,character'的方法
from_utc_time(y,x)

例子:
## Not run: from_utc_timestamp(df$t, 'PST')

generateAliasesForIntersectedCols

描述:
通过用别名替换相交的列来创建列的列表。别名列的名称是通过连接原始列名称和后缀来形成的。

用法:
generateAliasesForIntersectedCols(x, intersectedColNames, suffix)

参数；
x      一个在其中的DataFrame
intersectedColNames   相交列名称列表
suffix     列名称的后缀

值
列表的列

glm

描述:
适合广义线性模型，类似于R的glm（）。
另请参阅glmnet包。

用法:
glm(formula, family = gaussian, data, weights, subset, na.action,
  start = NULL, etastart, mustart, offset, control = list(...),
  model = TRUE, method = "glm.fit", x = FALSE, y = TRUE,
  contrasts = NULL, ...)

## S4 签名 'formula,ANY,DataFrame'的方法
glm(formula, family = c("gaussian",
  "binomial"), data, lambda = 0, alpha = 0, standardize = TRUE,
  solver = "auto")

参数:
formula     要拟合的模型的符号描述。目前只支持少数公式运算符，包括'〜'，'。'，'：'，'+'和' - '
family      错误分布。“高斯” - >线性回归，“二项式” - > logistic reg。
data    用于训练的DataFrame
lambda     正则化参数
alpha    弹性网混合参数（有关详细信息，请参阅glmnet的文档）
standardize   在训练前是否标准化特征
solver   用于优化的求解器算法，可以是“l-bfgs”，“normal”和“auto”。“l-bfgs”表示有限存储器BFGS，其是有限存储器的准牛顿优化方法。“normal”表示使用Normal Equation作为线性回归问题的解析解。默认值为“auto”，表示自动选择求解器算法。

值:
一个合适的MLlib模型

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D data(iris)
##D df <- createDataFrame(sqlContext, iris)
##D model <- glm(Sepal_Length ~ Sepal_Width, df, family="gaussian")
##D summary(model)
## End(Not run)

greatest

描述:
返回列名列表的最大值，跳过空值。此功能至少需要2个参数。如果所有参数都为null，它将返回null。

用法:
## S4 签名'Column' 的方法
greatest(x, ...)

例子；
## Not run: greatest(df$c, df$d)

GroupBy

描述:
使用指定的列对DataFrame进行分组，因此我们可以对它们进行聚合。

用法:
## S4签名'DataFrame’的方法
groupBy(x,..)

## S4签名‘DataFrame'的方法
group_by(x, ...)
group_by(x,...)
groupBy(x, ...)

参数:
x    一个DataFrame

值
一个分组数据

例子:
## Not run: 
##D   # 计算按部门分组的所有数字列的平均值
##D   avg(groupBy(df, "department"))
##D 
##D   # 计算按部门和性别分组的最大年龄和平均工资。
##D   agg(groupBy(df, "department", "gender"), salary="avg", "age" -> "max")
## End(Not run)

HashCode

描述:
Java样式函数，用于计算给定对象的hashCode。返回一个整数值。

用法:
hashCode(key)

参数:
要散列的对象键值

细节:
这仅适用于整数，数字和字符类型。

值:
哈希码为整数

例子:
hashCode(1L) # 1
## Error in eval(expr, envir, enclos): could not find function "hashCode"

hashCode(1,0)  #1072693248
## Error in eval(expr, envir, enclos): could not find function "hashCode"

hashCode("1") # 49
## Error in eval(expr, envir, enclos): could not find function "hashCode"

head

描述:
将DataFrame的前NUM行作为data.frame返回。
如果NUM为NULL，则head（）返回前6行，与R中的当前data.frame约定保持一致。

用法:
## S4 签名'DataFrame'的方法
head(x, num = 6L)

参数；
x      一个SparkSQL  DataFrame
num   The number of  rows.Default is  6.

值:
一个data.frame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D head(df)
## End(Not run)

hex

描述:
计算给定列的十六进制值。

用法:
## S4 签名'Column'的方法
hex(x)

例子:
## Not run: hex(df$c)

hour

描述:
从给定的日期/时间戳/字符串中提取小时作为整数。

用法:
## S4 签名'Column'的方法
hour(x)
hour(x)

例子:
## Not run: hour(df$c)

hypot

描述:
计算'sqrt（a ^ 2 ^ + b ^ 2 ^）'，没有中间溢出或下溢。

用法；
签名'Column'的方法
hypot(y,x)

例子:
##Not run:hypot(df$c,x)

ifelse

描述:
评估条件列表，如果条件满足则返回yes。否则，对于不匹配的条件不会反悔

用法:
## S4 签名'Column'的方法
ifelse(test, yes, no)

例子:
## Not run: ifelse(df$a > 1 & df$b > 2, 0, 1)

infer_type

描述:
推断SQL类型

用法:
infer_type(x)

initcap

描述：
通过将每个单词的第一个字母转换为大写来返回一个新的字符串列。单词由空格分隔。

用法:
## S4 签名'Column‘的方法
initcap(x)

详细:
举个例子：“hello world” 将会变为 “Hello World”

例子:
## Not run: initcap(df$c)

insertInto

描述:
将DataFrame的内容插入到当前SQL Context中注册的表中。

使用：
## S4 签名'DataFrame,character'的方法
insertInto(x,tableName,overwrite =False )
insertInto(x,tableName,...)

参数:
x      一个SparkSQL DataFrame
tableName   一个含表名的字符向量
overwrite  一个逻辑参数，指示是否覆盖表中的现有行

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df <- read.df(sqlContext, path, "parquet")
##D df2 <- read.df(sqlContext, path2, "parquet")
##D registerTempTable(df, "table1")
##D insertInto(df2, "table1", overwrite = TRUE)
## End(Not run)

instr

描述；
找到给定字符串中第一次出现的字符子串列的位置。如果任一参数为null，则返回null。

用法:
## S4 签名'Column,character'
instr(x,y)

详细:
注意：位置不是基于零,是基于1的索引，如果在str中找不到substr，则返回0。

例子:
## Not run: instr(df$c, 'b')

Intersect

描述:
返回仅在此DataFrame和另一个DataFrame中共同包含的新DataFrame。这相当于SQL中的“INTERSECT”.

用法:
## S4 签名'DataFrame,DataFrame'的方法
intersect(x, y)

参数:
x    一个sparkDataFrame
y   一个sparkDataFrame

值:
一个包含相交结果的DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df1 <- read.json(sqlContext, path)
##D df2 <- read.json(sqlContext, path2)
##D intersectDF <- intersect(df, df2)
## End(Not run)

is.nan

描述:
如果列是NaN，则返回true，isnan的别名

用法；
## S4 签名的'Column'的方法
is.nan(x)

## S4 签名'Column'的方法
isnan(x)

例子:
## Not run: 
##D is.nan(df$c)
##D isnan(df$c)
## End(Not run)

isLocal

描述:
如果'collect'和'take'方法可以在本地运行（没有任何Spark执行程序），则返回True。

用法:
## S4 签名的‘DataFrame’的方法
isLocal(x)

参数:
x    一个SparkSQL  DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D isLocal(df)
## End(Not run)

join

描述:
根据给定的连接表达式连接两个DataFrame。

用法；
## S4签名'DataFrame,DataFrame'的方法
join(x,y,joinExpr= NULL ,joinType = NULL)

参数:
x        一个Spark DataFrame
y        一个SparkDataFrame
joinExpr    (可选的)用于执行连接的表达式。joinExpr必须是Column表达式。如果省略joinExpr，join（）将执行笛卡尔连接
joinType   要执行的联接类型。可以使用以下连接类型：'inner'，'outer'，'full'，'fullouter'，leftouter'，'left_outer'，'left'，'right_outer'，'rightouter'，'right'和'leftsemi'。默认的joinType是“inner”。

值:
包含连接操作结果的DataFrame。

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df1 <- read.json(sqlContext, path)
##D df2 <- read.json(sqlContext, path2)
##D join(df1, df2) # Performs a Cartesian
##D join(df1, df2, df1$col1 == df2$col2) # Performs an inner join based on expression
##D join(df1, df2, df1$col1 == df2$col2, "right_outer")
## End(Not run)

kurtosis

描述: 
聚合函数：返回组中值的峰度

用法:
## S4签名的‘Column'的方法
kurtosis(x)

例子:
## Not run: kurtosis(df$c)

lag

描述:
窗口函数：返回当前行之前为'offset'行的值，如果当前行之前的行数少于'offset'，则返回'defaultValue'。
例如，一个'offset'将返回窗口分区中任何给定点的前一行。

用法:
## S4 签名'characterOrColumn'的方法
lag(x,offset,deaultValue = Null)
lag(x,...)

详细:
这相当于SQL中的LAG函数

例子:
## Not run: lag(df$c)

last

描述:
聚合函数：返回组中的最后一个值。

用法:
签名'Column'的函数
last(x)

例子:
## Not run: last(df$c)

last_day

描述:
给定日期列，返回给定日期所属月份的最后一天。
例如，输入“2015-07-27”返回“2015-07-31”，因为7月31日是2015年7月的最后一天。

用法:
## S4签名'Column'的方法
last_day(x)

例子:
## Not run: last_day(df$c)

lead

描述；
窗函数：返回当前行之后'offset'行的值，如果当前行之后的行数少于'offset'，则返回'null'。
例如，一个'offset'将返回窗口分区中任何给定点的下一行。

用法:
## S4 签名'characterOrColumn，numeric'的方法
lead(x,offset,defaultValue =Null)

详细:
这相当于SQL中的LEAD函数。

例子:
## Not run: lead(df$c)

least

描述：
返回列名列表的最小值，跳过空值。此功能至少需要2个参数。如果所有参数都为null，它将返回null。

用法;
## 签名'Column'的列
least(x,...)

例子:
## Not run: least(df$c, df$d)

length

描述:
计算给定字符串或二进制列的长度.

用法:
## S4 签名'Column‘的方法
length(x)

例子:
## Not run: length(df$c)

levenshtein

描述:
计算两个给定字符串列的Levenshtein距离。

用法:
## S4 签名 ‘Column'的方法
levenshtein(y,x)

例子:
## Not run: levenshtein(df$c, x)

limit

描述:
将生成的DataFrame限制为指定的行数。

用法:
## S4 签名‘DataFrame,numeric’的方法
limit(x,num)

参数；
x        一个SparkSQL DataFrame
num    要返回的行数

值:
包含指定行数的新DataFrame。

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D limitedDF <- limit(df, 10)
## End(Not run)

lit

描述:
创建一个新列以表示文字值。如果参数是Column，则返回不变。

用法:
## S4 签名'Any‘的方法
lit(x)

例子:
## Not run: 
##D lit(df$name)
##D select(df, lit("x"))
##D select(df, lit("2015-01-01"))
## End(Not run)

locate

描述:
找到第一次出现的字符串子串的位置。
注意：位置不是基于零，但基于1的索引，如果在str中找不到substr，则返回0。

用法:
## S4 签名列‘character,Column’
locate(substr,str,pos=0)

例子:
## Not run: locate('b', df$c, 1)

log

描述:
计算给定值的自然对数。

用法:
## S4 签名'Column'的方法
log(x)

例子:
## Not run: log(df$c)

log10

描述:
计算基数10中给定值的对数。

用法:
## S4 签名‘Column’的方法
log10(x)

例子:
## Not run: log10(df$c)

log1p

描述:
计算给定值的自然对数加1

用法:
## S4签名'Column'的方法

例子:
## Not run: log1p(df$c)

log2

描述:
计算基数2中给定列中值的对数。

用法:
## S4 签名‘Column'的方法
log2(x)

例子:
## Not run: log2(df$c)

lower

描述；
将字符串列转换为小写。

用法:
lower(x)

例子:
## Not run: lower(df$c)

lpad

描述:
左键填充字符串列

用法:
## S4签名的‘Column，numeric，character’的方法
lpad(x, len, pad)

例子；
## Not run: lpad(df$c, 6, '#')

ltrim

描述:
从左端修剪指定字符串值的空格.

用法:
## S4 签名的'Column'的方法
ltrim(x)

例子:
## Not run: ltrim(df$c)

match

描述:
匹配一个给定值的列

使用:
## S4 签名'Column'的方法
x %in% table

值:
作为与给定值进行比较的结果的匹配值。

例子:
## Not run: 
##D filter(df, "age in (10, 30)")
##D where(df, df$age %in% c(10, 30))
## End(Not run)

max

描述:
聚合函数:返回组中表达式的最大值。

使用:
## S4  签名'Column'的方法
max(x)

例子:
## Not run: max(df$c)

md5

描述:
计算二进制列的MD5摘要，并将该值返回为32个字符的十六进制字符串。

使用:
## S4 签名列"Column"
md5(x)

例子:
## Not run: md5(df$c)

mean

描述:
聚合函数:返回组中值的平均值，平均别名

使用:
## S4 签名'Column'的方法
mean(x)

例子:
## Not run: mean(df$c)

merge

描述:
合并两个DataFrame

用法
## S4签名‘DataFrame,DataFrame’的方法
merge(x,y,by = intersect(names(x),names(y)), by.x = by, by.y = by, all = FALSE, all.x = all,
  all.y = all, sort = TRUE, suffixes = c("_x", "_y"), ...))
  merge(x,y,...)

参数：
x    第一个要被加入的DataFrame
y    第二个要被加入的DataFrame
by    指定连接列的字符向量。如果未指定by，则将使用x和y中的公共列名称。
by.x    指定x的连接列的字符向量。
by.y    指定y的连接列的字符向量。
all.x   一个布尔值，指示x中的所有行是否应包含在连接中
all.y   一个布尔值，指示y中的所有行是否应包含在连接中
sort   一个逻辑参数，指示是否应对结果列进行排序

详细:
如果all.x和all.y设置为FALSE，则返回自然连接。
如果all.x设置为TRUE且all.y设置为FALSE，则返回左外连接。
如果all.x设置为FALSE且all.y设置为TRUE，则将返回右外连接。
如果all.x和all.y设置为TRUE，则将返回完整的外部联接。

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df1 <- read.json(sqlContext, path)
##D df2 <- read.json(sqlContext, path2)
##D merge(df1, df2) # Performs a Cartesian
##D merge(df1, df2, by = "col1") # Performs an inner join based on expression
##D merge(df1, df2, by.x = "col1", by.y = "col2", all.y = TRUE)
##D merge(df1, df2, by.x = "col1", by.y = "col2", all.x = TRUE)
##D merge(df1, df2, by.x = "col1", by.y = "col2", all.x = TRUE, all.y = TRUE)
##D merge(df1, df2, by.x = "col1", by.y = "col2", all = TRUE, sort = FALSE)
##D merge(df1, df2, by = "col1", all = TRUE, suffixes = c("-X", "-Y"))
## End(Not run)

min

描述；
聚合函数：返回组中表达式的最小值。

使用:
## S4 签名'Column'的方法

例子:
## Not run: min(df$c)

minute

描述:
从给定的日期/时间戳/字符串中提取分钟作为整数。

使用:
# S4签名‘Column’的方法
minute(x)

例子；
## Not run:minute(df$c)

month

描述:
从给定的日期/时间戳/字符串中提取月份作为整数。

使用:
## S4 签名'Column'
month(x)

例子:
## Not run: month(df$c)

months_between

描述:
返回日期'date1'和'date2'之间的月数。

使用
## S4签名'Column'的方法
months_between(y,x)

例子:
## Not run: months_between(df$c, x)

Mutate

描述:
返回添加了指定列的新DataFrame。

使用:
## S4 签名的‘DataFrame‘的方法
mutate(.data, ...)

## S4 签名的DataFrame'方法
transform('_data',...)
mutate(.data, ...)

参数:
.data   一个DataFrame
col    a named argument of the form name = col

值:
添加了新列的新DataFrame。

例子；
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D newDF <- mutate(df, newCol = df$col1 ##### 5, newCol2 = df$col1 ##### 2)
##D names(newDF) # Will contain newCol, newCol2
##D newDF2 <- transform(df, newCol = df$col1 / 5, newCol2 = df$col1 ##### 2)
## End(Not run)

nafunctions

dropna

描述:
返回一个新的DataFrame，省略具有空值的行。
替换空值

使用:
## S4 签名'DataFrame'的方法
dropna(x, how = c("any", "all"), minNonNulls = NULL, cols = NULL)

## S4签名‘DataFrame'的方法
na.omit(object ,how = c("any","all"),minNonNulls = NULL, cols = NULL)

##S4签名'Column'的方法
fillna(x ,value ,cols = NULL)

dropna(x,how = c("any","all"),minNonNulls = NULL,cols = NULL ) na.omit(object,...)
fillna(x,value,cols = NULL)

参数:
x    一个SparkSQL DataFrame
how    “任何”或“全部”。if“any”，如果包含任何空值，则删除一行。如果为“all”，则仅在其所有值均为空时删除行。如果指定了minNonNulls，则忽略该方法。
minNonNulls    如果指定，则删除小于minNonNulls非空值的行。这会覆盖how参数。
cols    要考虑的列名的可选列表。
value    用于替换空值的值。应该是整数，数字，字符或命名列表。如果该值是命名列表，则忽略cols，value必须是从列名（字符）到替换值的映射。替换值必须是整数，数字或字符。
x   一个SparkSQL  DataFrame
cols   要考虑的列名的可选列表。cols中指定的列没有匹配的数据类型将被忽略。例如，如果value是一个字符，而子集包含一个非字符列，则只会忽略非字符列。

值:
一个DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlCtx <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlCtx, path)
##D dropna(df)
## End(Not run)
## Not run: 
##D sc <- sparkR.init()
##D sqlCtx <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlCtx, path)
##D fillna(df, 1)
##D fillna(df, list("age" = 20, "name" = "unknown"))
## End(Not run)

nanvl

描述:
如果不是NaN，则返回col1;如果col1是NaN，则返回col2。hhBoth输入应该是浮点列（DoubleType或FloatType）。

使用:
## S4签名的‘Column’方法列
nanvl(y,v)

例子:
## Not run: nanvl(df$c, x)

ncol

描述:
返回DataFrame中的列数

使用:
## S4 签名‘Column’的方法
ncol(x)

参数:
x    一个SparkSQL DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D ncol(df)
## End(Not run)

negate

描述:
一元减去，即否定表达。

使用:
## 签名'Column'的方法
negate(x)

例子:
## Not run: negate(df$c)

next_day

描述；
给定日期列，返回第一个日期，该日期晚于指定星期几的日期列的值。

使用:
## S4 签名‘Column,character’的方法
next_day(y, x)

详细说明:
例如，next_day（'2015-07-27'，“Sunday”）将返回2015-08-02，因为这是2015-07-27之后的第一个星期日。
星期几参数不区分大小写，并接受前三个或两个字符：“星期一”，“星期二”，“星期三”，“星期四”，“星期五”，“星期六”，“太阳”。

例子:
## Not run: 
##D next_day(df$d, 'Sun')
##D next_day(df$d, 'Sunday')
## End(Not run)

nrow

描述:
返回DataFrame中的行数

使用:
## S4签名‘DataFrame’的方法
count(x)

## S4签名的‘DataFrame’的方法
nrow(x)

参数:
x  一个SparkSQL DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D count(df)
## End(Not run)

ntile

描述:
窗口函数：在有序窗口分区中返回ntile组id（从1到'n'）。
例如，如果'n'为4，则第一季度的行将获得值1，第二季度将获得2，第三季度将获得3，最后一个季度将获得4。

使用：
## S4 签名‘numeric’的方法
ntile(x)

详细说明:
这相当于SQL中的NTILE函数

例子:
## Not run: ntile(1)

otherwise

描述:
如果指定列中的值为null，则返回该值。
可以与'when'一起使用，以指定表达式的默认值。

使用:
## S4 签名'Column'的方法
otherwise(x,value)

percent_rank

描述:
窗口函数：返回窗口分区内行的相对等级（即百分位数）。

使用：
## S4 签名'missing'的列
percent_rank()
percent_rank(x)

详细说明:
这是通过以下计算：
（其分区中的行的等级 - 1）/（分区中的行数 - 1）
这相当于SQL中的PERCENT_RANK函数。

例子:
## Not run: percent_rank()

persist

描述:
使用指定的存储级别保留此DataFrame。
有关支持的存储级别的详细信息，请参阅[点击此处](http://spark.apache.org/docs/latest/programming-guide.html#rdd-persistence.)

使用:
## S4签名'DataFrame,character'的方法列
persist(x,newLevel)

参数:
x   缓存的DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D persist(df, "MEMORY_AND_DISK")
## End(Not run)

pmod

描述:
返回被除数mod除数的正值。

使用:
## S4签名的‘Column’
pmod(y, x)

例子:
## Not run: pmod(df$c, x)

predict

描述:
使用glm（）生成的模型进行预测，类似于R的预测（）。

使用;
predict(object,...)

## S4签名的方法'PipelineModel'
predict(object,newData)

参数:
宾语
一个合适的MLlib模型
新数据
用于测试的DataFrame

值:
包含预测值的DataFrame

例子:
## Not run: 
##D model <- glm(y ~ x, trainingData)
##D predicted <- predict(model, testData)
##D showDF(predicted)
## End(Not run)

print.jobj

描述:
此函数打印存储在SparkR JVM后端中的对象的类型和ID。

使用:
## S3 签名'jobj'的方法
print(x, ...)

参数:
x     参考java的对象
...   传递给其他方法的其他参数

print.structField

描述:
此函数打印从SparkR JVM后端返回的StructField的内容。

使用:
## S3 签名'StructFiled'的方法
print(x,...)

参数:
x     一个StructField 对象
...   传递给其他方法的其他参数

print.structType

描述:
此函数打印从SparkR JVM后端返回的StructType的内容。

使用:
## S3签名'structType'的方法
print(x,...)

参数:
x   一个StructType 对象
...  传递给其他方法的其他参数

printSchema

描述:
以树格式打印模式

使用:
## S4 签名'DataFrame'的方法
printSchema(x)

参数:
x  一个SparkSQL DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D printSchema(df)
## End(Not run)

quarter

描述:
从给定的日期/时间戳/字符串中提取季度作为整数。

用法:
## S4签名'Column‘的方法
quarter(x)

例子:
## Not run: quarter(df$c)

rand

描述:
使用i.i.d生成随机列。来自U [0.0,1.0]的样本。

使用:
## S4 签名'missing'的方法
rand(seed)

## S4签名'numeric'的方法
rand(seed)

例子:
## Not run: rand()

randn

描述:
使用i.i.d生成列。样本来自标准正态分布。

使用:
## S4签名'missing'的方法
randn(seed)

## S4签名‘numeric’的方法
randn(seed)

例子:
## Not run:randn();

rank

描述:
窗口函数：返回窗口分区中行的等级。

使用:
## S4 签名'missing'的方法
rank()
rank(x, ...)

详细说明:
rank和denseRank之间的区别在于，当存在关联时，denseRank在排序顺序中没有留下间隙。
也就是说，如果你使用密集积分排名比赛并且有三个人并列第二名，那么你会说三个人排在第二位，而下一个人排在第三位。
这相当于SQL中的RANK函数。

例子:
## Not run: rank()

rbind

返回一个新的DataFrame，其中包含此DataFrame中的行和另一个DataFrame。
这相当于SQL中的“UNION ALL”。请注意，这不会删除两个DataFrame中的重复行。
返回包含所有参数行的新DataFrame。

## S4 签名'DataFrame,DataFrame'
unionAll(x,y)

## S4签名'DataFrame'
rbind(x, ... ,deparse.level = 1)

unionAll(x,y)

rbind(... ,deparse.level = 1)

参数:
x   一个SparkDataFrame
y   一个Spark DataFrame

值:
包含union的结果的DataFrame。

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df1 <- read.json(sqlContext, path)
##D df2 <- read.json(sqlContext, path2)
##D unioned <- unionAll(df, df2)
## End(Not run)

read.df

描述:
将在数据源的数据集作为一个DataFrame返回

使用:
read.df(sqlContext, path = NULL, source = NULL, schema = NULL, ...)
loadDF(sqlContext, path = NULL, source = NULL, schema = NULL, ...)

参数:
sqlContext   使用的SQLContext
path    加载的文件路径
source  外在的数据源的名字
schema   structType中定义的数据模式

详细
数据源由“source”和一组选项（...）指定。
如果未指定“source”，则将使用由“spark.sql.sources.default”配置的默认数据源。

值:
DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D df1 <- read.df(sqlContext, "path/to/file.json", source = "json")
##D schema <- structType(structField("name", "string"),
##D                      structField("info", "map<string,double>"))
##D df2 <- read.df(sqlContext, mapTypeJsonPath, "json", schema)
##D df3 <- loadDF(sqlContext, "data/test_table", "parquet", mergeSchema = "true")
## End(Not run)

read.json

描述；
加载JSON文件（每行一个对象），将结果作为DataFrame返回。它遍历整个数据集一次以确定模式。

使用;
read.json(sqlContext,path)
jsonFile(sqlContxt, path)

参数:
sqlContxt  使用的SQLContext
path    要读取的文件的路径。允许多个路径的向量。

值;
DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D df <- jsonFile(sqlContext, path)
## End(Not run)

read.parquet

描述:
加载Parquet文件，将结果作为DataFrame返回。

用法:
read.parquet(sqlContext,path)
parquetFile(sqlContext, ...)

参数:
sqlContext  使用的SQLContext
path    要读取的文件的路径。允许多个路径的向量。

值:
DataFrame

regexp_extract

描述:
从指定的字符串列中提取由java正则表达式标识的特定（idx）组。

使用:
## S4 签名'Column,character,numeric'
regexp_extract(x,patterm,idx)
regexp_extract(x,pattern,idx)

例子:
## Not run: regexp_extract(df$c, '(\d+)-(\d+)', 1)

regexp_replace

描述:
将与regexp匹配的指定字符串值的所有子字符串替换为rep。

使用:
S4 签名'Column,character,character
regexp_replace(x,pattern,replacement)
regexp_replace(x,pattern,replacement)

例子:
## Not run: regexp_replace(df$c, '(\\d+)', '--')

registerTempTable

描述:
将DataFrame注册为SQLContext中的临时表

使用:
## S4 签名'DataFrame,character'
registerTempTable(x,tableName)
registerTempTable(x,tableName)

参数:
x            一个SparkSQL DataFrame
tableName   包含表名称的字符向量

例子
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D registerTempTable(df, "json_df")
##D new_df <- sql(sqlContext, "SELECT ##### FROM json_df")
## End(Not run)

rename

描述:
重命名DataFrame中的现有列。

使用:
## S4 签名'DataFrame,character,character'
withColumnRenamed(x,existingCol,newCol)

## S4 method for signature 'DataFrame'
rename(x, ..)
rename(x, ...)

参数:
x            一个DataFrame
existingCol   要更改的列的名称。
newCol        这个新列的名字
newColpair    一个名为new_column_name = existing_column的命名对

值:
列名更改的DataFrame。

例子
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D newDF <- withColumnRenamed(df, "col1", "newCol1")
## End(Not run)
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D newDF <- rename(df, col1 = df$newCol1)
## End(Not run)

Repartition

描述:
返回一个具有完全numPartitions分区的新DataFrame。

使用:
## S4 方法‘DataFrame,numeric‘’的签名
repartition(x, numPartitions)

参数:
x                  一个SparkSQL DataFrame
numPartitions      使用的分区数目

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D newDF <- repartition(df, 2L)
## End(Not run)

reverse

描述:
反转字符串列并将其作为新字符串列返回。

使用:
## S4签名的'Column‘的方法
reverse(x)

例子:
’## Not run: reverse(df$c)

rint

描述:
返回与参数值最接近的double值，它等于数学整数。

使用；
## S4签名'Column‘的方法
rint(x)

例子：
## Not run: rint(df$c)

round

描述:
返回列'e'的值舍入为0小数位

使用:
## S4签名'Column'的列
round(x)

例子:
## Not run: round（df$c）

row_number

描述:
窗口函数：在窗口分区中返回从1开始的序号。

使用:
## S4 签名'missing'的方法
row_number()
row_number(x)

详细说明:
这相当于SQL中的ROW_NUMBER函数。

例子:
## Not run: row_number()

rpad

描述:
右边填补一定长度的字符

使用：
## S4签名‘’Column,numeric,character'
rpad (x,len,pad)
rpad(x,len,pad)

例子:
## Not run: rpad(df$c, 6, '#')

rtrim

描述:
从右端修剪指定字符串值的空格。

使用:
## S4 签名'Column'的方法
rtrim(x)

例子:
## Not run: rtrim(df$c)

Sample

描述:
使用随机种子返回此DataFrame的采样子集。

使用:
## S4 签名'DataFrame,logical,numeric'的方法
sample(x,withReplacement，fraction，seed)
## S4签名'DataFrame,logical，numeric'
sample_frac(x,withreplacement，fraction，seed)
sample(x,withReplacement,fraction,seed)
sample_frac(x,withReplacement,fraction,seed)

参数:
x                     一个SparkSQL DataFrame
withReplacement       是否更换样本
fraction             （粗糙）样品目标分数
seed                  随机种子值

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D collect(sample(df, FALSE, 0.5))
##D collect(sample(df, TRUE, 0.5))
## End(Not run)

saveAstable

描述:
将DataFrame的内容作为表保存到数据源

使用:
## 签名'DataFrame,character,character,character'
saveAsTable(df,tableName,souce = NULLL, mode = 'error', ..)
saveAsTable(df,tableName,source,mode, ...)

参数:
df          一个SparkSQL DataFrame
tableName   一个表的名字
source      一个外部的数据源
mode        其中一个'追加'，'覆盖'，'错误'，'忽略'保存模式（默认为'错误'）

详细:
数据源由“source”和一组选项（...）指定。
如果未指定“source”，则将使用spark.sql.sources.default配置的默认数据源。

此外，模式用于指定数据源中已存在数据时的保存操作的行为。
有四种模式：
append：此DataFrame的内容应附加到现有数据。现有数据。
overwrite：预计现有数据将被此DataFrame的内容覆盖。
error：预计会抛出异常。
ignore：保存操作不会保存DataFrame的内容，也不会更改现有数据。

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D saveAsTable(df, "myfile")
## End(Not run)

schema

描述:
以structType对象的形式返回此DataFrame的架构。

使用:
## S4签名‘DataFrame’的方法
schema(x)
columns(x)
dtypes(x)
printSchema(x)
schema(x)

参数:
x    一个SparkSQL DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D dfSchema <- schema(df)
## End(Not run)

sd

描述:
聚合函数：stddev_samp的别名

使用:
## S4签名'Column'的方法
sd(x)

## S4签名的方法
stddev(X)
sd(x,na.rn =FALSE)
stddev(x)

例子;
## Not run: 
##D stddev(df$c)
##D select(df, stddev(df$age))
##D agg(df, sd(df$age))
## End(Not run)

second

描述:
从给定的日期/时间戳/字符串中提取秒数作为整数。

使用:
## S4签名‘Column’的方法
second(x)

例子:
## Not run: second(df$c)

select

描述:
选择一组带有名称或列表达式的列。

使用；
## S4签名‘DataFrame'的方法
x$name
## S4 用于签名'DataFrame'的S4替换方法
x$name <- value
## S4 签名'DataFrame,character'
select(x,col,...)
## S4签名'DataFrame,Column‘
select(x,col)
select(x,col, ...)
selectExpr(x,expr, ...)

参数:
x     一个DataFrame
col  一个列列表或单个列或名称

值:
被选中列的新的DataFrame

例子:
## Not run: 
##D   select(df, "#####")
##D   select(df, "col1", "col2")
##D   select(df, df$name, df$age + 1)
##D   select(df, c("col1", "col2"))
##D   select(df, list(df$name, df$age + 1))
##D   # Similar to R data frames columns can also be selected using `$`
##D   df[,df$age]
## End(Not run)

SelectExpr

描述:
使用一组SQL表达式从DataFrame中进行选择。

使用:
## S4签名‘DataFrame，character的方法’
selectExpr(x,expr, ...)

参数:
x      一个选出来的DataFrame
expr  一个包含SQL表达式的字符串
...   添加的其他表达式

值
一个DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D selectExpr(df, "col1", "(col2 ##### 5) as newCol")
## End(Not run)

SetJobGroup

描述:
为此线程启动的所有作业分配组ID，直到组ID设置为其他值或清除为止。

使用:
setJobGroup(sc,groupId,description,interruptOnCancel)

参数:
sc                   存在的SparkContext
description          工作组的描述ID
interruptOnCancel    用于指示作业取消时作业是否中断的标志
groupid              要分配给作业组的ID

例子:
## Not run: 
##D sc <- sparkR.init()
##D setJobGroup(sc, "myJobGroup", "My job group description", TRUE)
## End(Not run)

sha1

描述:
计算二进制列的SHA-1摘要，并将该值返回为40个字符的十六进制字符串。

使用:
## S4 签名'Column'的方法
sha1(x)
sha1(x)

例子:
## Not run: sha1(df$c)

sha2

描述:
计算二进制列的SHA-2哈希函数族，并将该值作为十六进制字符串返回。

使用：
## S4签名‘Column,numeric'的方法
sha2(y,x)
sha2(y,x)

参数:
y     用于计算SHA-2的列。
x     224,256,384或512中的一个。

例子:
## Not run: sha2(df$c, 256)

shiftLeft

描述:
将给定值numBits向左移动。
如果给定值是long值，则此函数将返回long值，否则将返回整数值

使用:
## S4签名‘Column，numeric’的方法
shifLeft(y,x)

例子:
## Not run: shiftLeft(df$c, 1)

shiftRight

描述:
将给定值numBits向右移动。
如果给定值是long值，则此函数将返回long值，否则将返回整数值

使用:
## S4签名‘Column，numeric’的方法
shifRight(y,x)

例子:
## Not run: shifRight(df$c, 1)

shiftRightUnsigned

描述:
无符号移位给定值numBits右。
如果给定值是一个long值，它将返回一个long值，否则它将返回一个整数值。

使用:
## S4 方法签名'Column，numeric'的方法
shiftRightUnsigned(y,x)

例子:
## Not run: shiftRightUnsigned(df$c, 1)

show

描述:
打印DataFrame列名称和类型

## S4签名'DataFrame'的方法
show(object)

##S4签名'Column'的方法
show(object)

## S4签名'GroupedData'的方法
show(object)

参数
x  一个SparkSQL DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D df
## End(Not run)

showDF

描述:
打印DataFrame的第一个numRows行

使用:
## S4 签名'DataFrame'的方法
showDF(x,numRows = 20, truncate =TRUE)
showDF (x,...)

参数
x     一个SparkSQL DataFrame
numRows  打印的行数，默认的是20

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D showDF(df)
## End(Not run)

signum

描述:
计算给定值的数量

使用:
## S4签名'Column’的方法
signum(x)

## S4签名'Column的方法‘
sign(x)
signum(x)

例子;
## Not run: signum(df$c)
## Not run: sign(df$c)

sin

描述
计算给定值的sin函数

使用:
S4 签名'Column'的方法

例子:
## Not run: sin(df$c)

sinh

描述:
计算给定值的双曲正弦值。

使用:
## S4签名'Column'的方法
sinh(x)

例子:
## Not run: sinh(df$c)

size

描述:
返回数组或映射的长度。

使用:
## S4签名'Column'的方法
size(x)

例子：
## Not run: size(df$c)

skewness

描述:
聚合函数：返回组中值的偏度。

使用:
## S4 签名'Column‘ 的函数
skewness(x)

例子:
## Not run: skewness(df$c)

sort_array

描述:
根据数组元素的自然顺序，按升序对给定列的输入数组进行排序。

使用
签名‘Column’的方法
sort_array(x,asc = TRUE)
sort_array(x, asc =TURE)

参数:
x  一个排序的列
asc    表示排序顺序的逻辑标志。是的，排序是按升序排列的。FALSE，排序按降序排列。

例子:
## Not run: 
##D sort_array(df$c)
##D sort_array(df$c, FALSE)
## End(Not run)

soundex

描述:
返回指定表达式的soundex代码。

使用:
## S4 签名'Column的方法
soundex(x)

例子：
## Not run: soundex(df$c)

sparkR.init

描述:
此函数初始化一个新的SparkContext。
有关如何初始化和使用SparkR的详细信息，请参阅[SparkR编程指南](http://spark.apache.org/docs/latest/sparkr.html#starting-up-sparkcontext-sqlcontext.)

使用:
sparkR.init(master = "", appName = "SparkR",
  sparkHome = Sys.getenv("SPARK_HOME"), sparkEnvir = list(),
  sparkExecutorEnv = list(), sparkJars = "", sparkPackages = "")

参数：
master            这个Spark master URL
appName           向集群管理器注册的应用程序名称
sparkHome         SparkHome的目录
sparkEnvir        要在工作节点上设置的命名的环境变量列表
sparkExecutorEnv   启动执行程序时要使用的命名的环境变量列表
sparkJars         jar文件的字符向量传递给工作者节点
sparkPackages    来自spark-packages.org包的字符向量

例子:
## Not run: 
##D sc <- sparkR.init("local[2]", "SparkR", "/home/spark")
##D sc <- sparkR.init("local[2]", "SparkR", "/home/spark",
##D                  list(spark.executor.memory="1g"))
##D sc <- sparkR.init("yarn-client", "SparkR", "/home/spark",
##D                  list(spark.executor.memory="4g"),
##D                  list(LD_LIBRARY_PATH="/directory of JVM libraries (libjvm.so) on workers/"),
##D                  c("one.jar", "two.jar", "three.jar"),
##D                  c("com.databricks:spark-avro_2.10:2.0.1",
##D                    "com.databricks:spark-csv_2.10:1.3.0"))
## End(Not run)

SparkR.stop

描述:
同时终止此R会话连接的后端

用法:
sparkR.stop()

sparkRHive.init

描述:
此函数从现有JavaSparkContext创建HiveContext

使用:
sparkRHive.init(jsc = NULL)

参数:
jsc     使用SparkR.init（）创建的现有JavaSparkContext

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRHive.init(sc)
## End(Not run)

sparkRSQL.init

描述:
此函数从现有JavaSparkContext创建SparkContext，然后使用它初始化新的SQLContext

使用:
sparkRSQl.init(jsc = NULL )

参数；
jsc     使用SparkR.init（）创建的现有JavaSparkContext

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
## End(Not run)

sql

描述:
使用Spark执行SQL查询，将结果作为DataFrame返回。

使用;
sql(sqlContext, sqlQuery)

参数:
sqlContext    使用的SQLContext
sqlQuery     一个包含SQL查询的字符串向量

值:
DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D registerTempTable(df, "table")
##D new_df <- sql(sqlContext, "SELECT ##### FROM table")
## End(Not run)

sqrt

描述:
计算指定浮点值的平方根.

使用
## S4 签名'Column'的方法
sqrt(x)

例子
## Not run: sqrt(df$c)

statfunctions

描述:
计算给定列的成对频率表。
也称为列联表。
每列的不同值的数量应小于1e4。
最多返回1e6非零对频率。
计算DataFrame的两个数字列的样本协方差。
计算DataFrame的两列的相关性。
目前仅支持Pearson Correlation Coefficient。
对于Spearman Correlation，请考虑使用MLlib统计中的RDD方法。
查找列的频繁项，可能带有误报。
使用由Karp，Schenker和Papadimitriou提出的http://dx.doi.org/10.1145/762471.762473中描述的频繁元素计数算法。
根据每个层上给出的分数返回无需替换的分层样本。

使用:
cov(x, col1, col2)

corr(x, ...)

sampleBy(x, col, fractions, seed)

## S4 签名 'DataFrame,character,character'的方法
crosstab(x, col1, col2)

## S4 签名'DataFrame,character,character'的方法
cov(x, col1, col2)

## S4 签名 'DataFrame'的方法
corr(x, col1, col2, method = "pearson")

## S4 签名'DataFrame,character'的方法
freqItems(x, cols, support = 0.01)

## S4 签名'DataFrame,character,list,numeric'的方法
sampleBy(x, col, fractions, seed)

值:
表示列联表的本地R data.frame。
每行的第一列将是'col1'的不同值，列名称将是'col2'的不同值。
第一列的名称为'$ col1_ $ col2'。
没有出现的对将计为零。
两列的协方差。
Pearson相关系数为双重。
本地R data.frame，每列中包含频繁项目
一个新的DataFrame，代表分层样本

例子:
## Not run: 
##D df <- jsonFile(sqlContext, "/path/to/file.json")
##D ct <- crosstab(df, "title", "gender")
## End(Not run)
## Not run: 
##D df <- jsonFile(sqlContext, "/path/to/file.json")
##D cov <- cov(df, "title", "gender")
## End(Not run)
## Not run: 
##D df <- jsonFile(sqlContext, "/path/to/file.json")
##D corr <- corr(df, "title", "gender")
##D corr <- corr(df, "title", "gender", method = "pearson")
## End(Not run)
## Not run: 
##D df <- jsonFile(sqlContext, "/path/to/file.json")
##D fi = freqItems(df, c("title", "gender"))
## End(Not run)
## Not run: 
##D df <- jsonFile(sqlContext, "/path/to/file.json")
##D sample <- sampleBy(df, "key", fractions, 36)
## End(Not run)

stddev_pop

描述:
聚合函数：返回组中表达式的总体标准差。

使用:
签名‘Column’的方法

例子:
## Not run: stddev_pop(df$c)

stddev_samp

描述；
聚合函数：返回组中表达式的无偏样本标准差。

使用:
## S4 签名‘Column’的方法
stddev_samp()

例子:
## Not run: stddev_samp(df$c)

struct

描述:
创建一个组成多个输入列的新结构列。

使用:
## S4 方法签名'characterOrColumn'
struct(x, ...)

例子；
## Not run: 
##D struct(df$c, df$d)
##D struct("col1", "col2")
## End(Not run)

structField

描述:
创建一个structField对象，其中包含模式中单个字段的元数据。

使用:
structField(x, ...)

参数:
x      字段名
type    这个字段的类型
nullable    支持字段是否为空的逻辑参数

值:
一个structField 对象

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlCtx <- sparkRSQL.init(sc)
##D rdd <- lapply(parallelize(sc, 1:10), function(x) { list(x, as.character(x)) })
##D field1 <- structField("a", "integer", TRUE)
##D field2 <- structField("b", "string", TRUE)
##D schema <- structType(field1, field2)
##D df <- createDataFrame(sqlCtx, rdd, schema)
## End(Not run)

structType

描述：
创建一个包含DataFrame元数据的structType对象。
旨在与createDataFrame和toDF一起使用。

使用:
structType(x,  ....)

参数:
x    structField对象（使用field（）函数创建）
...    额外的structField对象

值:
一个 structType object

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlCtx <- sparkRSQL.init(sc)
##D rdd <- lapply(parallelize(sc, 1:10), function(x) { list(x, as.character(x)) })
##D schema <- structType(structField("a", "integer"), structField("b", "string"))
##D df <- createDataFrame(sqlCtx, rdd, schema)
## End(Not run)

subset

描述：
根据给定条件返回DataFrame的子集

使用:
## S4 签名'DataFrame,numericOrcharacter'的方法
x[[i]]
## S4 签名‘DataFrame,missing’的方法
x[i,j,...,drop = TRUE]
## S4 签名'DataFrame,Column'的方法
x[i, j , .... ,drop = TRUE]
## S4 签名‘DataFrame’的方法
subset(x,subset,select,...)

参数:
x     一个DataFrame
subset    （可选的）过滤行的逻辑参数
select   单个列的表达式或从DataFrame中选择的列的列表

值
一个新的DataFrame，仅包含符合所选列条件的行

例子:
## Not run: 
##D   # Columns can be selected using `[[` and `[`
##D   df[[2]] == df[["age"]]
##D   df[,2] == df[,"age"]
##D   df[,c("name", "age")]
##D   # Or to filter rows
##D   df[df$age > 20,]
##D   # DataFrame can be subset on both rows and Columns
##D   df[df$name == "Smith", c(1,2)]
##D   df[df$age %in% c(19, 30), 1:2]
##D   subset(df, df$age %in% c(19, 30), 1:2)
##D   subset(df, df$age %in% c(19), select = c(1,2))
##D   subset(df, select = c(1,2))
## End(Not run)

substr

描述:
一个返回子字符串的表达式。

使用：
## S4 签名‘Column’的方法
substr(x,start,stop)

参数:
start 开始位置
stop   结束位置

substring_index

描述:
在分隔符delim的计数出现之前，从字符串str返回子字符串。
如果count为正数，则返回最终分隔符左边的所有内容（从左边开始计算）。
如果count为负数，则返回最终分隔符（从右边开始）的右侧。
substring_index在搜索delim时执行区分大小写的匹配。

使用;
## S4 签名'Column,character,numeric'的方法

例子:
## Not run: 
##D substring_index(df$c, '.', 2)
##D substring_index(df$c, '.', -1)
## End(Not run)

sum

描述：
聚合函数：返回表达式中所有值的总和。

使用:
## S4 签名'Column‘的方法
sum(x)

例子:
## Not run: sum(df$c)

sumDistinct

描述:
聚合函数：返回表达式中不同值的总和。

使用:
## S4 签名'Column'的方法
sumDistinct(x)

例子:
## Not run: sumDistinct(df$c)

summarize

描述:
在没有组的情况下聚合整个DataFrame。
生成的DataFrame还将包含分组列

使用:
## S4 签名'GroupedData'的方法
agg(x, ...)

## S4签名'GroupedData'
summarize(x,  ...)

参数:
x   一个组数据

细节:
df2 <- agg(df, <column> = <aggFunction>) df2 <- agg(df, newColName = aggFunction(column))

值:
一个DataFrame

例子:
## Not run: 
##D  df2 <- agg(df, age = "sum")  # new column name will be created as 'SUM(age#0)'
##D  df3 <- agg(df, ageSum = sum(df$age)) # Creates a new column named ageSum
##D  df4 <- summarize(df, ageSum = max(df$age))
## End(Not run)

summary

描述:
计算数字列的统计信息。
如果没有给出列，则此函数计算所有数值列的统计信息。
返回由glm（）生成的模型的摘要，类似于R的summary（）。

使用:
## S4签名'DataFrame,character'的方法
describe(x,col, ...)
## S4签名‘DataFrame,ANY'的方法
describe(x)
## S4 签名'DataFrame'的方法
summary (object , ...)

describe(x, col , ...）

summary(object ，...）

参数:
x     一个待计算的DataFrame
col   一个字符串的名字
...    添加的其他表达式 
object   一个合适的机器学习模型

值;
一个DataFrame
包含高斯族的'devianceResiduals'和'coefficient'组件的列表或具有二项式族的'coefficient'组件的列表。
对于高斯族：'devianceResiduals'给出估计的最小/最大偏差残差，'系数'给出估计的系数及其估计的标准误差，t值和p值。
（仅当模型由普通求解器拟合时才可用。）
对于二项式族：'系数'给出估计的系数。
有关更多信息，请参阅summary.glm。

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D describe(df)
##D describe(df, "col1")
##D describe(df, "col1", "col2")
## End(Not run)
## Not run: 
##D model <- glm(y ~ x, trainingData)
##D summary(model)
## End(Not run)

table

描述:
将指定的表作为DataFrame返回。表必须已在SQLContext中注册。

使用:
table(sqlContext, tableName)

参数:
sqlContext   使用的SQLContext 
tableName    SparkSQL Table 转化为DataFrame

值
DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D registerTempTable(df, "table")
##D new_df <- table(sqlContext, "table")
## End(Not run)

TableNames

描述:
以数组形式返回给定数据库中表的名称。

使用:
tableNames(sqlContext, databaseName = NULL)

参数:
sqlContext          使用的SQLContext
databaseName       数据库的名字

值:
一列表的表名

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D tableNames(sqlContext, "hive")
## End(Not run)

Tables

描述:
返回包含给定数据库中表的名称的DataFrame。

使用:
tables(sqlContext,databaseName = NULL )

参数:
sqlContext   使用的SQLContext
databaseName   数据库的名字

值:
一个DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D tables(sqlContext, "hive")
## End(Not run)

take

描述:
获取DataFrame的前NUM行并将结果作为data.frame返回

使用:
## 签名‘DataFrame，numeric’的方法

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D take(df, 2)
## End(Not run)

tan

描述:
计算给定值的正切值

使用:
## S4 签名'Column'的方法
tan(x)

例子 ;
## Not run: tan(df$c)

tanh

描述:
计算给定值的双曲正切值。

使用:
## S4 签名'Column‘的双曲正切值
tanh(x)

例子:
## Not run: tanh(df$c)

toDegrees

描述:
将以弧度测量的角度转换为以度为单位测量的近似等效角度。

使用:
## S4签名‘Column’的方法
toDegrees(x)

例子:
## Not run: toDegrees(df$c)

toRadians

描述:
将以度为单位的角度转换为以弧度为单位测量的近似等效角度。

使用:
## S4签名'Column'的方法
toRadians(x)

例子:
## Not run: toRadians(df$c)

to_date

描述:
将列的值转化为Date类型

使用:
## S4 签名'Column'的方法
to_date(x)

例子:
## Not run: to_date(df$c)

toutctimestamp

描述:
假设给定时间戳在给定时区内并转换为UTC。

使用:
## S4 签名'Column,character'的方法

例子:
## Not run: to_utc_timestamp(df$t, 'PST')

translate

描述:
通过replaceString中的字符翻译src中的任何字符。
replaceString中的字符对应于matchingString中的字符。
当字符串中的任何字符与matchingString中的字符匹配时，将发生转换。

使用
## S4 签名‘Column,character,character'’的方法
translate(x, matchingString,replaceString)

例子:
## Not run: translate(df$c, 'rnlt', '123')

trim

描述:
修剪指定字符串列的两端空格。

使用:
##S4签名‘Column'的方法
trim(x)

例子:
## Not run: trim(df$c)

unbase64

描述:
解码BASE64编码的字符串列并将其作为二进制列返回。这与base64相反。

使用:
## S4 签名‘Column’的方法
unbase(64)

例子:
## Not run: unbase64(df$c)

Uncache Table

描述:
从内存缓存中删除指定的表。

使用:
uncacheTable(sqlContext,tableName)

参数:
sqlContext   使用的SQLContext
tableName   缓存中移除表的名称

值;
DataFrame

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D registerTempTable(df, "table")
##D uncacheTable(sqlContext, "table")
## End(Not run)

unhex

描述:
反转十六进制。将每对字符解释为十六进制数，并转换为数字的字节表示形式

使用:
## S4 签名'Column'的方法
unhex(x)

例子:
## Not run: unhex(df$c)

unix_timestamp

描述:
以秒为单位获取当前的Unix时间戳.

使用:
## S4 签名‘missing,missing'的方法
unix_timestamp(x,format)

## S4签名'Column,missing'的方法
unix_timestamp(x,format = 'yyyy-MM-dd HH:mm:ss")

unix_timestamp(x,format)

例子:
## Not run: 
##D unix_timestamp()
##D unix_timestamp(df$t)
##D unix_timestamp(df$t, 'yyyy-MM-dd HH')
## End(Not run)

Unpersist

描述:
将此DataFrame标记为非持久性，并从内存和磁盘中删除所有块。

使用:
## S4 签名'DataFrame’的方法
unpersist(x, blocking = TRUE)

参数；
x      去持久化的DataFrame
blocking    是否阻止直到删除所有块

例子;
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D persist(df, "MEMORY_AND_DISK")
##D unpersist(df)
## End(Not run)

upper

描述:
将字符串列转换为大写。

使用；
## S4 签名'Column'的方法
upper(x)

例子:
## Not run: upper(df$c)

var

描述:
聚合函数：var_samp的别名。

使用:
## S4 签名‘Column'的方法
var(x)

## S4签名’Column'的方法
variance(x)
var(x,y = NULL ,na.rm = FALSE , use)
variance(x)

例子:
## Not run: 
##D variance(df$c)
##D select(df, var_pop(df$age))
##D agg(df, var(df$age))
## End(Not run)

var_pop

描述:
聚合函数：返回组中值的总体方差。

使用；
## S4 签名'Column'的方法
var_pop(x)

例子:
## Not run: var_pop(df$c)

var_samp

描述；
聚合函数：返回组中值的无偏差异。

使用:
## S4签名‘Column’的方法
var_samp(x)

例子；
’## Not run: var_samp(df$c)

weekofyear

描述:
从给定的日期/时间戳/字符串中提取周数作为整数。

使用:
## S4签名'Column'的方法
weekofyear(x)

例子:
## Not run: weekofyear(df$c)

when

描述:
计算条件列表并返回多个可能的结果表达式之一。对于不匹配的表达式，返回null。

使用:
## S4 签名'Column’的方法
when(condition, value)

例子:
## Not run: when(df$age == 2, df$age + 1)

with

描述；
在DataFrame构造的环境中评估R表达式，使用（）允许通过简单地引用其名称来访问DataFrame的列。它将DataFrame的每一列附加到新环境中。然后，在这个新环境中评估给定的表达式。

使用:
## S4签名‘DataFrame'的方法
with(data, expr, ...)

参数：

data	      (DataFrame) 用于构建环境的DataFrame
expr	 (expression)评估表达式
...	  要传递给方法的参数。

例子:
## Not run: 
##D with(irisDf, nrow(Sepal_Width))
## End(Not run)

WithColumn

描述:
返回添加了指定列的新DataFrame。

使用:
## S4 签名'DataFrame,character,Column'的方法
withColumn(x,colName,col)
transform('-data‘，...）
withColumn(x,colName,col)

参数:
x    一个DataFrame
colName  一个包含新列名的字符串
col    一个列的表达式

值:
添加了新列的DataFrame。

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D newDF <- withColumn(df, "newCol", df$col1 ##### 5)
## End(Not run)

write.df

描述:
数据源由“source”和一组选项（...）指定。
如果未指定“source”，则将使用spark.sql.sources.default配置的默认数据源。

使用:
## S4 签名'DataFrame,character'
write.df(df,path,source = NULL, mode = "error", ...)

## S4 签名‘DataFrame，character’的方法
saveDF(df,path,source =NULl ,mode = 'error', ...)
write.df(Df,path, ...)
saveDF（df，path,...）

参数:
df    一个SparkSQL DataFrame
path    一个表的名字
source   一个外部的数据源
mode  其中一个'追加'，'覆盖'，'错误'，'忽略'保存模式（默认为'错误'）

详细:
此外，模式用于指定数据源中已存在数据时的保存操作的行为。
有四种模式：
append：此DataFrame的内容应附加到现有数据。
overwrite：预计现有数据将被此DataFrame的内容覆盖。
error：预计会抛出异常。
ignore：保存操作不会保存DataFrame的内容，也不会更改现有数据。

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D write.df(df, "myfile", "parquet", "overwrite")
##D saveDF(df, parquetPath2, "parquet", mode = saveMode, mergeSchema = mergeSchema)
## End(Not run)

write.json

描述
将DataFrame的内容保存为JSON文件（每行一个对象）。使用此方法写出的文件可以使用read.json（）作为DataFrame读回。

使用:
## S4 签名'DataFrame,character'
write.json(x,path)

参数:
x    一个SparkSQL DataFrame
path 存储目文件的 目录

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D write.json(df, "/tmp/sparkr-tmp/")
## End(Not run)

write.parquet

描述:
将DataFrame的内容保存为Parquet文件，保留架构。
使用此方法写出的文件可以使用read.parquet（）作为DataFrame读回。

用法:
## S4 签名'DataFrame,character'的方法
write.parquet(x,path)
## S4签名'DataFrame,character'
saveAsParquetFile(x,path)
write.parquet(x,path)
saveAsParquetFile(x,path)

参数:
x    一个SparkSQL DataFrame
path  存储文件的路径

例子:
## Not run: 
##D sc <- sparkR.init()
##D sqlContext <- sparkRSQL.init(sc)
##D path <- "path/to/file.json"
##D df <- read.json(sqlContext, path)
##D write.parquet(df, "/tmp/sparkr-tmp1/")
##D saveAsParquetFile(df, "/tmp/sparkr-tmp2/")
## End(Not run)

year

描述:
从给定的日期/时间戳/字符串中提取年份作为整数。

使用:
## S4 签名'Column'的方法
year(x)

例子:
## Not run: year(df$c)

芹菜学长

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录