在使用SPSS Modeler进行数据分析和数据挖掘时,官方Demos中自带数据的格式为sav格式,我们只能通过该软件进行数据的读取,如果想在其他途径如MySQL中导入该数据,那是不行的。
如果我们在学习SPSS教程苦于没有合适数据的时候,那么官方Demos中的数据应该是一个非常好的选择。在此需要解决一个格式转换的问题,就是如何将sav格式转换成常见的数据格式,如csv格式。目前有个开源的Python库,叫savReaderWriter,用于支持sav文件的读写,我们可以利用这个库来进行读操作,并将数据写入其他文件格式。
如下所示,是我写的一个自动寻找sav文件并转换成csv文件的脚本:
#coding: utf-8
import os
import glob
from savReaderWriter import SavReader
import numpy as np
import pandas as pd
'''
.sav - the IBM SPSS Statistics Input Output Module
'''
def convertSavToCsv(srcFile):
## Reading files
fpath