在利用Python27进行中文处理时,码制问题一直在扰人,以前犯懒没有记录下处理规则,今天以后要逐渐记录一点点;
今天问题是:处理txt文件,存储时选择存为了utf8格式,读第一行时总是莫名多一个符号
>>>f=codecs.open('管理综合.txt','r')
>>>line=f.readline()
>>>line
'\xef\xbb\xbf642362\n'
###多了“'\xef\xbb\xbf”;
于是更改f的read模式:
>>> f=codecs.open('管理综合.txt','r',encoding='utf8')
>>> line=f.readline()
>>> line
u'\ufeff642362\r\n'
>>> line=f.readline()
>>> line
u'325379\r\n'
#还是第一行出现了错乱符号‘u'\ufeff’
于是更改原来文件为ascii码制,后处理:
>>> f=codecs.open('管理综合ascii.txt','r')
>>> line=f.readline()
>>> line
'642362\n'
第一行没有错误符号了