网址:http://www.cnblogs.com/yurunmiao/p/4923694.html
1.目前pyspark.sql.types支持的数据类型:
NullType、
StringType、
BinaryType、
BooleanType、
DateType、
TimestampType、
DecimalType、
DoubleType、
FloatType、
ByteType、
IntegerType、
LongType、
ShortType、
ArrayType、
MapType、
StructType(StructField)
其中ArrayType、MapType、StructType我们称之为“复合类型”,其余称之为“基本类型”,“复合类型”在是“基本类型”的基础上构建而来的。
2.table创建方法
a. 模拟“一行两列”的数据,并通过parallelize方法将其转换为一个RDD source,这个RDD就是关联着数据的RDD;
b. 创建数据模式,需要分别为这两列指定列名、列类型、可否包含空(Null)值;其中模式需要使用StructType表示,每一列的各个属性(列名称、列类型、可否包含空(Null)值)需要使用StructField表示;第一列的列名为col1,列类型为IntegerType,不可包含空(Null)值(False);第二列的列名为col2,列类型为IntegerType,不可包含空(Null)值(False);(注意:实际使用中每列的数据类型并不一定相同)
c. 通过applySchema方法将数据模式schema应用于RDD source,这会产生一个SchemaRDD(具有模式的RDD) table;
d. 将SchemaRDD table注册为一张表:temp_table;
3.hive 中数据类型
4.python 时间格式
%a 星期几的简写 Weekday name, abbr.
%A 星期几的全称 Weekday name, full
%b 月分的简写 Month name, abbr.
%B 月份的全称 Month name, full
%c 标准的日期的时间串 Complete date and time representation
%d 十进制表示的每月的第几天 Day of the month
%H 24小时制的小时 Hour (24-hour clock)
%I 12小时制的小时 Hour (12-hour clock)
%j 十进制表示的每年的第几天 Day of the year
%m 十进制表示的月份 Month number
%M 十时制表示的分钟数 Minute number
%S 十进制的秒数 Second number
%U 第年的第几周,把星期日做为第一天(值从0到53)Week number (Sunday first weekday)
%w 十进制表示的星期几(值从0到6,星期天为0)weekday number
%W 每年的第几周,把星期一做为第一天(值从0到53) Week number (Monday first weekday)
%x 标准的日期串 Complete date representation (e.g. 13/01/08)
%X 标准的时间串 Complete time representation (e.g. 17:02:10)
%y 不带世纪的十进制年份(值从0到99)Year number within century
%Y 带世纪部分的十制年份 Year number
%z,%Z 时区名称,如果不能得到时区名称则返回空字符。Name of time zone
%% 百分号