Stata是统计学专业软件,可以很方便的对数据处理,但几乎只能按照整行整列进行,而且每次只能加载一个矩阵(dta文件),如果要用到多个矩阵数据进行操作或进行复杂的循环控制,就力不从心了。
而Matlab工业界广泛使用的数据分析处理工具,对矩阵支持良好,除了可以像c语言一样完成底层的操作之外,还包含很多函数库,囊括工控、信号处理、金融、人工智能各个行业。虽然没有Stata内置的统计学函数全面,但在底层操作方面具有明显优势。
因此,在一次帮助别人完成金融数据分析时,尝试使用Stata对数据进行预处理,Matlab完成运算之后再由Stata完成进一步的加标签等操作。
Stata完成数据预处理
Stata参考资料不多,主要参考了《应用Stata做统计分析》前两章基本操作部分,还有搜索。
待处理的数据为大盘行情与个股行情,从数据库下载到的数据为xls格式。使用
import excel *.xls
import excel *.xls,clear#加载另一个文件
可以加载excel文件,当然在加载之前最好改变workspace到所在目录。
数据中一列为“1991-01-01”格式的日期数据,可以使用
generate dated=date(B,"YMD")
把日期同意换算成消逝日期,即相对于1960年元旦的天数。
而day、month、year等函数可以由消逝天数计算出当天的年月日。
导入的数据均为字符串类型,要把字符串转换为数字,要使用