一直没有弄清楚ts()里面frequency的设置,这两天查找资料发现stackoverflow的一篇文章详细说明了这个设置,翻译出来,和大家共享。
#创建一个虚拟的数据框,包含数值和时间两个变量,下面显示了不同的设置的结果。
dat <- data.frame(myts = sample(10, 24, replace = T),
Date = seq(as.Date("2008-10-11"), as.Date("2008-10-11") + 23, by = 1))
print(ts(dat$myts, frequency = 7, start = c(1950, 3)), calendar = T)
# p1 p2 p3 p4 p5 p6 p7
# 1950 6 9 6 9 8
# 1951 6 1 9 3 5 7 4
# 1952 2 9 5 9 7 8 7
# 1953 2 6 6 8 1
print(ts(dat$myts, frequency = 12, start = c(1950, 3)), calendar = T)
# Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
# 1950 6 9 6 9 8 6 1 9 3 5
# 1951 7 4 2 9 5 9 7 8 7 2 6 6
# 1952 8 1
print(ts(dat$myts, frequency = 4, start = c(1950, 3)), calendar = T)
# Qtr1 Qtr2 Qtr3 Qtr4
# 1950 6 9
# 1951 6 9 8 6
# 1952 1 9 3 5
# 1953 7 4 2 9
# 1954 5 9 7 8
# 1955 7 2 6 6
# 1956 8 1
print(ts(dat$myts, frequency = 7), calendar = T)
# p1 p2 p3 p4 p5 p6 p7
# 1 6 9 6 9 8 6 1
# 2 9 3 5 7 4 2 9
# 3 5 9 7 8 7 2 6
# 4 6 8 1
从输出结果我们可以发现:
1:ts()自动将frequency=12,4,当成月份和季度。而如果要设置成7,表示频率为每周时,显示结果并不很直接。
2:start()中的第一个参数依赖于frequency()的设置,第二个参数是frequency设置周期的第一个事件发生时间(即并不是所有序列都从周一或者周日开始)
3:如果不确定start()参数的设置,即序列的起始点,函数默认为第一个周期的第一个时间点。
因此,如果设置周期为7(周),想让序列更清晰表达起始范围,可以采用以下方法。以下方法使用了strfime()函数
startW <- as.numeric(strftime(head(dat$Date, 1), format = "%W"))
startD <- as.numeric(strftime(head(dat$Date, 1) + 1, format =" %w"))
print(ts(dat$myts, frequency = 7, start = c(startW, startD)), calendar = T)
# p1 p2 p3 p4 p5 p6 p7
#39 6
#40 9 6 9 8 6 1 9
#41 3 5 7 4 2 9 5
#42 9 7 8 7 2 6 6
#43 8 1
Which means that our first observation (which occurred in 2008-10-11) was Saturday of the 39th week of 2008