摘要:
很多场景下,我都需要和中文汉字打交道,但是总有一些乱码的问题困扰我们,这篇文章简单介绍几种情况以及对应的处理方法。
1.场景1
我们上头上有一份数据。在notepad上打开是长这个样子的。
每一列是以Tab ('\t')做分割的。
现在,我们尝试把这个文件用python自带的open打开。
for x in open("file"):
print x
打开后发现是乱七八糟的。
我们可以来做个简单的小实验,用记事本打开文件,然后另存为的地方选择不同的编码方式可以看到显示不同的内容结果。具体来说:
下面尝试用编码方式为unicode的来保存文件,然后显示的结果如下: