同花顺问财有个数据数据导出的功能,可以导出为Excel 格式,但是用Python直接读取的时候会报错,如下图:
file_name = datetime.now().strftime("%Y-%m-%d")
path = "C:/Users/Administrator/Downloads/%s.xls" % file_name
df = pd.read_excel(path)
print(df)
会直接报错,不能直接读取,报错如下:
raise XLRDError(‘Unsupported format, or corrupt file: ’ + msg)
xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b’<!DOCTYP’
原因就是这个文件虽然是xls结尾,但是内容并不是xls格式的,里面内容嵌套了很多的其他格式,如果不是自动化的可以打开文件,另存为其他格式,保存在读取,但是要记得去掉里面的格式。
但是这个不是根本的解决方法,经过多番研究发现,这个文件格式是个网页文件,换个读取方式,竟然OK了,如下:
file_name = datetime.now().strftime("%Y-%m-%d")
path = "C:/Users/Administrator/Downloads/%s.xls" % file_name
df = pd.read_html(path)
成功输出文件,出现这类错误,可以试试这种方法