今天在改案例的过程中,遇到这样一个问题。时间列的数据全是这样的:
目的是为了计算每个小时 样本出现了多少次,比如如图所示,凌晨0点出现了一次,中午12时出现了两次。
(方法一)
本来打算使用R软件中的:
1. strstring(time,a, b)这样一个函数,来提取每个样本中的小时,
2. 然后添加到向量里,
3. 然后使用table函数进行统计频次。
4. 这样使用一个for循环
这样做比较准确。但是会出现一个问题,那就是使用R软件用for循环,时间特别长。我的案例是67w+的数据,跑了半天我等不下去了,终止后,发现才循环到27w+的地方。
(方法二)
于是我想到了能不能用 strstring()函数直接提取全部样本的。
发现也可以,然后提出来的小时也应该比较准确,然后用table()函数再进行统计,发现效果可以。这种方法最简单,但是要求数据比较工整才可以。
(方法三)
一般对时间数据,有专门的函数可以进行处理,我就上网查了查。发现确实是,下面是代码
#data是原始数据
#logTime是时间列名称,格式为:2016-07-07 10:57:53
time=as.POSIXct(data$logTime)
hour=strftime(time,"%H")
table(hour)
上述代码即可达到目的