python读取csv中所遇到的中文编码问题

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/franksking/article/details/74838620

由于本人准备学习使用一些机器学习算法,第一个是DecisionTree,然后使用到了西瓜案例:
用到的西瓜案例

因为涉及到讨厌的编码问题,所以找了好多办法去尝试读取csv文件:
1. pandas
pandas可谓是神奇,用python学习机器学习不可缺少的一个包。 使用pandas的时候也进行了尝试,起初encoding是utf-8,但是无法读取出来,所以改成了gbk,这个其实不用担心,等有了一些经验的时候,就不用为这个部分犯愁了
pandas.csv_reader(‘xxx.csv’,encoding=’gbk’)使用pandas读csv
2. csv
这个库的使用确实比较恶心,读取内容为英文的csv还行,但是读取中文的csv的不会是unicode结构,因为机器默认的是ASCII码结构
这里写图片描述
这是在网上找到的解析
比方说,我们把’编号取出来’,
我们会发现,那一堆乱七八糟的码就成了‘编号’
其实是python中str发挥了作用,它会把人看不懂的转成人能看懂的,这是通俗的说法,实则是会把ascii码进行转换
这里写图片描述
ascii码和unicode
这里写图片描述

展开阅读全文

没有更多推荐了,返回首页