RapidMiner 数据转换

这里写图片描述

一、日期到标称值

概述

为指定的日期属性解析日期值,使用给定的日期格式字符串和转换成标称值。

描述

此操作符转换指定的日期属性,并按照用户指定的格式写入一个新的标称属性。对于基于OLAP的时间去改变从天到周或月的时间戳粒度很有用。
通过参数date_format能指定日期格式,可以按如下描述。
日期和时间模式
date_format中的日期和时间模式字符串指定日期和时间格式。在日期和时间模式字符串中,结束引文字母从“A”到“Z”和从“a”到“z”被解释为代表日期和时间字符串组件的模式字母。为了避免解释,引用文本可以使用单引号(‘)。““”代表一个单引号。所有其它的字符不会被解释;在格式化的过程中,它们仅被复制到输出字符串中,或在解析的过程中,它们与输入字符串想竞争。
定义以下模式字母(所有其它的字符从'A' 到'Z' 和 从'a' to 'z'被保留):
G: era designator; Text; example: AD
y: year; Year; example: 1996; 96
M: month in year; Month; example: July; Jul; 07
w: week in year; Number; example: 27
W: week in month; Number; example: 2
D: day in year; Number; example: 189
d: day in month; Number; example: 10
F: day of week in month; Number; example: 2
E: day in week; Text; example: Tuesday; Tue
a: am/pm marker; Text; example: PM
H: hour in day (0-23); Number; example: 0
k: hour in day (1-24); Number; example: 24
K: hour in am / pm (0-11); Number; example: 0
h: hour in am / pm (1-12); Number; example: 12
m: minute in hour; Number; example: 30
s: second in minute; Number; example: 55
S: millisecond; Number; example: 978
z: time zone; General Time Zone; example: Pacific Standard Time; PST; GMT-08:00
Z: time zone; RFC 822 Time Zone; example: -0800
模式字母通常是重复的,由它们的数量决定确切的介绍:
1.文本: 进行格式化,如果模式字母的数量是4个或4个以上,使用完整形式;否则使用简写或缩写形式。为了解析,接受两种形式,与模式字母的数量无关。
2.数字: 进行格式化,模式字母的数量是最小位数,较短的数字是0填充到这数。为了解析,模式字母的数量被忽略,除非它需要单独的两个相邻领域。
3.年: 如果优先的日历是公历,适用下面的规则。进行格式化,如果模式字母的数量是2,年被截断成2位数,否则它解释成一个数字。进行解析,如果模式字母的数量大于2,年被逐字解释,不管数字的位数。因此使用模式”MM/dd/
yyyy”, “01/11/12”解析Jan 11, 12 A.D。缩写年模式(“y” or “yy”)进行解析,这个操作符必须解释缩写相对于一些世纪缩写的年。它通过调整日期是在80年代前和20年代后,时间操作符创建。例如,使用模式”MM/dd/yy”和创建于Jan 1, 1997的操作符,字符串”01/11/12” 将被解释为 Jan 11, 2012,然而字符串”05/04/64” 将被解释为 May 4,1964。在解析过程中,仅包含恰好两个字符的字符串被解析成默认的纪元。任何其它的数字字符串,如一个数字串,三个或三个以上的数字串,或两个不全是数字的数字串(例如,“-1“),被逐字解释。因此,”01/02/3” 或 “01/02/003”被解析,使用相同的模式,为Jan 2, 3 AD.同样,”01/02/-3”被解析为 Jan 2, 4 BC。否则,日历系统的具体形式被应用。如果模式字母的数量是4个或4个以上,日历特使的长格式被使用。否则,日历简写或缩写被使用。
4.月:如果模式字母的数量是3个或更多,月被解释为文本;否则,它被解释为一个数字。
5.时区:如果时区有名字,它们被解释为 文本。通过指出GMT偏移值定义时区。RFC 822时区是可以接
受的。
6.RFC 822时区: 进行格式化,RFC 822的4位时区格式被使用。一般的时区也是可以接受的。通过定义本地模式,这个操作符也支持 本地化的日期和时间模式字符串。在这些字符串中,上述被描述的模式字母可以用其它的本地依赖的模式字母替换。
Examples
下面的例子显示了在美国区域内,日期和时间模式是如何被解释的。所给定的日期和时间是当地时间
2001-07-04 12:08:56,在美国的太平洋标准时间时区 。
“yyyy.MM.dd G ‘at’ HH:mm:ss z”: 2001.07.04 AD at 12:08:56 PDT
“EEE, MMM d, ”yy”: Wed, Jul 4, ‘01
“h:mm a”: 12:08 PM
“hh ‘o”clock’ a, zzzz”: 12 o’clock PM, Pacific Daylight Time
“K:mm a, z”: 0:08 PM, PDT
“yyyy.MMMMM.dd GGG hh:mm aaa”: 02001.July.04 AD 12:08 PM
“EEE, d MMM yyyy HH:mm:ss Z”: Wed, 4 Jul 2001 12:08:56 -0700
“yyMMddHHmmssZ”: 010704120856-0700
“yyyy-MM-dd’T’HH:mm:ss.SSSZ”: 2001-07-04T12:08:56.235-0700

输入

example set input: expects: ExampleSetMetaData: #examples: = 0; #attributes: 0 , expects: ExampleSet

输出

example set output
original

参数

属性名称
将要解析的属性的名称。
日期格式
日期值的解析格式,例如 “yyyy/MM/dd”。
设置时区
如果在日期字符串中没有指定它自己,该时间区域用于日期对象。 默认值:SYSTEM 专家参数
设置本地日期语言环境
日期文本使用的语言环境,例如, “Wed” (English) 对应于 “Mi” (German). 默认值:英文 (美国) 专家参数
保留原始属性
表示如果属性应保持原来的日期。 默认值:false 专家参数

二、日期到数值

概述

通过捕捉从01/01/1970 00:00:00 GMT开始的毫秒,转化日期值为数值。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值