本文以处理A股财务报表为例,介绍了将数据转换成时间序列后在进行处理的一些方法和思路。将会用到xts,lapply,do.call等数据结构和函数。
1、 简介
我们从各个途径获得了个股的财务报表原始数据后,还需要对数据做一些处理,以便后续指标计算和使用。举个简单的例子,个股发布的利润表和现金流量表,在年内各个季度值都是累计值,不方便环比比较,所以我们现在想把它们全部都处理成当季实际发生额。对于这样的数据,无论是SQL还是R,Python里面传统的数据结构,实现起来都是要费一番功夫进行数据处理的。但是如果使用了时间序列的方法,再结合一些R语言自带的语法结构,只需要短短几行代码,就能完成复杂的数据清洗。
2、 原始数据
原始文件我已经整理好了,记录了万科,国农科技,世纪星源和深振业A这四只股票从2014年一季度到2017年三季度,利润表里“营业总收入”的数据(单位:万元)。每只个股有15条记录,合计60行数据。数据结构如下:
## 'data.frame': 60 obs. of 3 variables:
## $ 季度 : chr "2017-09-30" "2017-06-30" "2017-03-31" "2016-12-31" ...
## $ 名称 : chr "万科" "万科" "万科" "万科" ...
## $ 营业总收入: int 11710050 6981048 1858923 24047724 11705480 7479529 1461131 19554913 7959621 5026680 ...
以万科为例,具体内容如下:data[data$名称==“万科”,]
## 季度 名称 营业总收入
## 1 2017-09-30 万科 11710050
## 2 2017-06-30 万科 6981048
## 3 2017-03-31 万科 1858923
## 4 2016-12-31 万科 24047724
## 5 2016-09-30 万科 11705480
## 6 2016-06-30 万科 7479529
## 7 2016-03-31 万科 1461131
## 8 2015-12-31 万科 19554913
## 9 2015-09-30 万科 7959621
## 10 2015-06-30 万科 5026680
## 11 2015-03-31 万科 889434
## 12 2014-12-31 万科 14638800
## 13 2014-09-30 万科 6313959
## 14 2014-06-30 万科 4096190
## 15 2014-03-31 万科 949722
我们看到,每只个股按照时间倒序排列,营业总收入是一个累计值。比如,表中显示万科在2017年3季度的营业收入为11710050(万元),2季度的营业收入为6981048(万元),那么万科2017年3季度的营业收入世纪发生额为11710050-6981048=4729002 万元。我们的目的是在原始数据的基础之上,再加一列,把单季度的发生额加在后面。
3、处理过程
-
3.1、数据切分
原始数据里有4只股票,他们的数据结构是一致的,处理方法也一致,为了方便处理,把原始数据从数据框切成列表。在dataframe上使用split,可以将dataframe按照指定的条件切成一个个列表。示例如下:data<-split