背景
使用pandas读取csv数据过程中遇到有中文时显示乱码
问题运行截图如下:
代码:
dataset = pd.read_csv(file_object_path)
print(dataset.head())
分析
读取全量数据,由于csv文件默认不采用UTF-8编码,导致了中文乱码问题
方案
优化后代码:
# 读取全量数据,由于csv文件默认不采用UTF-8编码,导致了中文乱码问题,改为encoding='GB18030'后问题解决
dataset = pd.read_csv(file_object_path, encoding='GB18030', dtype=str)
print(dataset.head())
优化后运行截图: