正所谓巧妇难为无米之炊,数据分析首要的问题是数据的获取。 SAS
作为老牌的统计软件发展至今,已经集成了丰富的数据获取与管理功能组件。本章我们就SAS如何获取数据做重点介绍,并顺带介绍 SAS 如何导出数据文件。
3.1 读取对象与读取方式
说到数据读取这个问题,我们可以从 SAS 读取的对象来说 ,
当然也可以从读取的方式来说。从 SAS 读取的对象来说,我们可以把外部数据文件归为四类。
(1)数据库管理系统(Data Base Management System, DBMS)数据文件,市面的DBMS 非常之多,常见的如
DB2、 Sybase、 mySQL、 MS SQL Server、 Oracle、 Teradata 以及 Hadoop
等。
(2)单机文件(PC file),单机文件应是相对 DBMS 数据文件而言的,常见的单机数据文件包括 MS Access、 MS
Excel、 Lotus、 DBF 以及大家更熟悉的 JMP、 SPSS、Stata、 Paradox 等软件的数据文件。
(3)平面文件(Flat file),这是一种记录间没有结构关系的文件,一个 Flat file 既可以是纯文本文件 (Plain
text file),也可以是二进制文件 (Binary file),对于我们而言,最常见的是纯文本 TXT 文件和 CSV
文件。
(4)流式数据(Instream data),即 SAS 程序中 DATA步里 DATALINES语句后的数据行。
从 SAS 读取的方式来说,笔者总结为 7 类(更准确地讲,应该是 SAS
和外部数据交互的方式,因为不仅仅读入