前言
CSMAR(国泰安)数据库是经济金融相关的科研工作者用到的最多的数据库之一。它提供了丰富全面的上市公司财务及金融数据,以及一些行业宏观层面的数据。但是,它并没有像WRDS(沃顿研究数据服务)等数据库提供丰富接口(如SAS,R等)供下载,只能在网页上下载好数据然后导入到相应的分析软件进行分析。
我在最近使用该数据库时发现,虽然CSMAR(国泰安)数据库可以提供CSV格式下载,但限制每次只能有300,000条查询,而且在导入R的过程中总是报错。另外还有其他的可以导入R的txt格式,但无一例外都出现错误,无法导入成功。最终无奈选择xls格式,而xls格式由于自身的限制,每个文件只有65,000条数据。
因此把CSMAR数据导入R就变成了两个问题:
批量导入excel数据文件。
为每个变量添加标签。(因为许多变量名并不能直观的知道它的意思,而Rstudio里面显示每个变量标签就方便多了)
完成之后,在Rstudio里面的样式是:
一步一步来
安装两个packages:
install.packages(c("tidyverse", "readxl"))
下载数据并解压在一个文件夹里,我们以CSMAR里面基金表现数据为例:
如图,每个子文件夹里面又有很多xls文件,和标签说明的txt文件。
读取xls文件的list:
library(tidyverse)
librar