Python3.2邮件解码

Python3.2中字符串全是unicode,接收邮件retr返回的信息message是bytes列表。

测试过程中发现Python3.2 接收邮件后的处理和Python 2.X差别很大,原来可以正确解码的邮件都要另行处理,包括mail.as_string()和message_from_string()和message_from_file()都有时会出问题。而新引入的message_from_bytes()则要好用得多。但考虑到国内邮件的复杂情况(哇,真的好复杂啊,主要是邮件的编码,规范的和不规范的),邮件解码经常出现乱码问题。chardet给出的结果也有问题,比如说邮件中有未编码处理的英文和中文混合的情况,它测得的编码有时也会发生错误,这样就造成了解码错误出现乱码。

我使用了一个比较笨的办法:

先利用chardet来解码出邮件文本:

ms=''
for l in message:
charset=chardet.detect(l)['encoding']
 if charset:
        ms+=l.decode(charset)+'\n'
else:
        ms+=l.decode()

这其中可能有乱码,先不管它,因为我们主要为了取得charset信息,然后:

#判断编码
import re
cp=re.compile('charset=\S+')
m=cp.search(ms).group()

eCharset=m[9:len(m)-1]

好了,再根据这个eCharset去解码邮件原始的bytes就可以了。

(没有做大范围的测试,这个办法有点笨,但可以解决部分乱码问题)

注意:

mail=email.message_from_string(ms)

成功后,再调用mail.as_string()有时还是会出问题,真搞不懂。

 

欢迎大侠指教!

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值