解决方法
对于Windows的读取方法:
pd.read_csv('my_data.csv', encoding='ANSI')
Mac上修改为使用GB18030
的编码来读取文件:
pd.read_csv('my_data.csv', encoding="gb18030", on_bad_lines="skip")
问题解析
通过官网文档可知:https://docs.python.org/2/library/codecs.html#standard-encodings
ANSI是windows上的编码,而对应的是中文编码,因此使用GBK
,gb2312
,gb18030
解析均可
同时为了防止有意外的报错(真的会有部分字符无法识别),所以加一个on_bad_lines
,用于剔除错误行
read_csv方法的其他参数请参考:https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html