因为数据处理系统只能识别sav文件,需要把excel数据文件转为sav文件。(已解决我的问题)
最开始在网上搜了很多关于如何处理sav数据文件的内容,看了python中的savReaderWriter模块,估计是因为模块包很久都没有更新的原因,python3.7用pip安装时会报错(之后我也没去解决这个报错);还有就是pyreadstat包,感觉也不是很懂。
当时我一心想着杠正面,想直接把excel文件转为sav文件,思路没打开。之后我再摸索了一下sav文件的文件格式,我觉得我基本了解了sav文件的特点,就想着去模仿它的格式自己编写sav文件行不。sav既能用notepad打开,又能被excel打开,而且文件格式和内容都不会走样。我就试着把excel中的数据读出来,用open('*.Sav','w')创建sav文件,再把excel中的数据写入到sav文件。过程中我按着自己的思路去模仿sav文件的格式,考虑到它在excel中打开且不走样,我就在读出excel文件后,在每个单元格值后面加了一个'\t',再合并excel中的一行为一个字符串。最后生成的sav文件就能被系统识别了。
现在想来整个处理过程相当的简单,只是思路问题。
最后再说一个自己处理过程中遇到的小问题:Windows下的换行是'\r\n',如果写入文件时,代码写入的是'\n',系统会自动将它转为'\r\n'。这些都是系统默认好的,写sav文件时最好别去单独指定。在linux下换行就是'\n'。
from openpyxl import load_workbook
excel_name = 'test.xlsx'
sav_name = 'result.Sav'
wb = load_workbook(excel_name)
ws = wb.active
with open(sav_name,'w',encoding='GBK') as f:
i=1
while i<=ws.max_row:
j = 1
one_line = []
while j<ws.max_column:
cell_value = ws.cell(i,j).value
if not cell_value:
cell_value=''
#关键步骤,在去除的每个单元格值后面添加一个'table'制表符,模拟.sav文件结构。
one_line.append(str(cell_value)+'\t')
j+=1
cell_value = ws.cell(i,j).value
if not cell_value:
cell_value = ''
one_line.append(str(cell_value))
if i != ws.max_row:
one_line.append('\n')
new_line = ''.join(one_line)
f.write(new_line)
i+=1
wb.close()