Spark SQL之引用(数据类型,NaN语义及算术运算)

Data Types(数据类型)

Spark SQL和DataFrames支持以下数据类型:
Numeric types(数字类型)

ByteType: 表示1字节有符号整数。数字的范围是从-128到127。
ShortType: 表示2字节有符号整数。数字的范围从-32768到32767。
IntegerType: 表示4字节有符号整数。数字的范围是从-2147483648到2147483647。
LongType: 表示8字节有符号整数。数字范围从-9223372036854775808到9223372036854775807。
FloatType: 表示4字节单精度浮点数。
DoubleType: 表示8字节双精度浮点数
DecimalType: 表示具有任意精度的带符号小数。内部支持java.math.BigDecimal。BigDecimal由一个任意精度的整数无标度值和一个32位整数标度组成。

String type(字符串类型)

StringType: 表示字符串值。

Binary type(二进制类型)

BinaryType: 表示字节序列值。

Boolean type(布尔类型)

BooleanType: 是布尔值(true/false)。

Datetime type(日期时间类型)

TimestampType: 表示包含字段值的值,这些值包括年、月、日、小时、分钟和秒。
DateType: 表示由字段值组成的值,这些值包括年、月、日。

Complex types(复合类型)

ArrayType(elementType, containsNull): 表示包含具有elementType类型的元素序列的值。containsNull用于指示ArrayType值中的元素是否可以具有空值。
MapType(keyType, valueType, valueContainsNull): 表示由一组键-值对组成的值。键的数据类型由键类型描述,值的数据类型由valueType描述。对于MapType值,键值不允许为空。valueContainsNull用于指示MapType值的值是否可以为空值。
StructType(fields): 用StructFields (fields)序列描述的结构表示值。
StructField(name, dataType, nullable):表示结构类型中的字段。字段的名称由名称表示。字段的数据类型由数据类型表示。nullable用于指示此字段的值是否可以为空值。

Spark SQL的所有数据类型都位于包org.apache.spark.sql.types中。您可以通过以下操作访问它们:

import org.apache.spark.sql.types._

Scala
在这里插入图片描述
Java
在这里插入图片描述

NaN Semantics(非数字值的特殊值)

在处理与标准浮点语义不完全匹配的浮点类型或双类型时,对非数字(NaN)有特殊的处理。具体地说:

(1).NaN = NaN 返回true.
(2).在聚合中,所有NaN值都分组在一起。
(3).NaN 被视为联接键中的正常值。
(4).NaN 值按升序排列,比任何其他数字值都大,持续时间最长.

Arithmetic operations(算术运算)

对数值类型(小数除外)执行的操作不检查溢出。这意味着如果一个操作导致溢出,结果与Java/Scala程序中返回的操作相同。(如:如果两个整数的和大于可表示的最大值,则结果为负数)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值