python读取csmar_如何优雅的把CSMAR(国泰安)数据导入R和Python

最新推荐文章于 2024-04-14 23:04:42 发布

一只与世无争的狒

最新推荐文章于 2024-04-14 23:04:42 发布

阅读量1.8k

点赞数 1

文章标签： python读取csmar

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35696071/article/details/111923745

版权

本文介绍了如何优雅地将CSMAR（国泰安）数据库的Excel数据导入R和Python，包括批量读取文件、添加变量标签等步骤。在R中，通过`tidyverse`和`readxl`包实现数据读取和处理，Python则利用pandas的`read_excel`功能结合`feather`格式进行数据整合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

CSMAR(国泰安)数据库是经济金融相关的科研工作者用到的最多的数据库之一。它提供了丰富全面的上市公司财务及金融数据，以及一些行业宏观层面的数据。但是，它并没有像WRDS(沃顿研究数据服务)等数据库提供丰富接口(如SAS，R等)供下载，只能在网页上下载好数据然后导入到相应的分析软件进行分析。

我在最近使用该数据库时发现，虽然CSMAR(国泰安)数据库可以提供CSV格式下载，但限制每次只能有300,000条查询，而且在导入R的过程中总是报错。另外还有其他的可以导入R的txt格式，但无一例外都出现错误，无法导入成功。最终无奈选择xls格式，而xls格式由于自身的限制，每个文件只有65,000条数据。

因此把CSMAR数据导入R就变成了两个问题：

批量导入excel数据文件。

为每个变量添加标签。(因为许多变量名并不能直观的知道它的意思，而Rstudio里面显示每个变量标签就方便多了)

完成之后，在Rstudio里面的样式是：

一步一步来

安装两个packages:

install.packages(c("tidyverse", "readxl"))

下载数据并解压在一个文件夹里，我们以CSMAR里面基金表现数据为例：

如图，每个子文件夹里面又有很多xls文件，和标签说明的txt文件。

读取xls文件的list：

library(tidyverse)

librar

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。