python 登陆邮箱下载邮件附件

参考帖子:https://blog.csdn.net/u012209894/article/details/82384987

最近有一个比较特殊的需求,有一个业务每日会产生大量报表,该业务并未给出拿取报表数据的接口,每天报表会发送到一个邮箱中以附件发送,但每日的邮件过多,需要自己登陆邮箱一个一个附件下载下来比较繁琐,现在要写个脚本去拿这些附件,然后再分析里面的数据。

    def decode_str(self, str_in):
        value, charset = decode_header(str_in)[0]
        if charset:
            value = value.decode(charset)
        return value

    def get_att(self, msg_in, str_day_in):
        # import email
        attachment_files = []
        for part in msg_in.walk():
            # 获取附件名称类型
            file_name = part.get_filename()
            # contType = part.get_content_type()
            if file_name:
                h = email.header.Header(file_name)
                # 对附件名称进行解码
                dh = email.header.decode_header(h)
                filename = dh[0][0]
                if dh[0][1]:
                    # 将附件名称可读化
                    filename = self.decode_str(str(filename, dh[0][1]))
                    print(filename)
                    # filename = filename.encode("utf-8")
                # 下载附件
                data = part.get_payload(decode=True)
                # 在指定目录下创建文件,注意二进制文件需要用wb模式打开
                att_file = open('E:\\load_bi\\' + str_day_in + '\\' + filename, 'wb')
                attachment_files.append(filename)
                att_file.write(data)  # 保存附件
                att_file.close()
        return attachment_files

    def decode_str(self, s):
        value, charset = decode_header(s)[0]
        if charset:
            if charset != 'utf8':
                charset = 'utf8'
            value = value.decode(charset)
        return value

    def get_email_headers(self, msg):
        headers = {}
        for header in ['From', 'To', 'Cc', 'Subject', 'Date']:
            value = msg.get(header, '')
            if value:
                if header == 'Date':
                    headers['Date'] = value
                if header == 'Subject':
                    subject = self.decode_str(value)
                    headers['Subject'] = subject
                if header == 'From':
                    hdr, addr = parseaddr(value)
                    name = self.decode_str(hdr)
                    from_addr = u'%s <%s>' % (name, addr)
                    headers['From'] = from_addr
                if header == 'To':
                    all_cc = value.split(',')
                    to = []
                    for x in all_cc:
                        hdr, addr = parseaddr(x)
                        name = self.decode_str(hdr)
                        to_addr = u'%s <%s>' % (name, addr)
                        to.append(to_addr)
                    headers['To'] = ','.join(to)
                if header == 'Cc':
                    all_cc = value.split(',')
                    cc = []
                    for x in all_cc:
                        hdr, addr = parseaddr(x)
                        name = self.decode_str(hdr)
                        cc_addr = u'%s <%s>' % (name, addr)
                        cc.append(to_addr)
                    headers['Cc'] = ','.join(cc)
        return headers

    def guess_charset(self,msg):
        # 先从msg对象获取编码:
        charset = msg.get_charset()
        if charset is None:
            # 如果获取不到,再从Content-Type字段获取:
            content_type = msg.get('Content-Type', '').lower()
            pos = content_type.find('charset=')
            if pos >= 0:
                charset = content_type[pos + 8:].strip()
        return charset

    def get_enclosure(self):
        # 日期赋值
        day = datetime.date.today()
        str_day = str(day).replace('-', '')

        self._email = "xxxxxxxx@163.com"
        self._password = "xxxxxx"

        #  连接到POP3服务器,带SSL的:
        # self._pop_server = "pop.gmail.com"
        self._pop_server = "pop.163.com"
        telnetlib.Telnet(self._pop_server, 995)
        try:
            server=poplib.POP3_SSL(self._pop_server)
        except:
            time.sleep(5)
            # server = poplib.POP3(self._pop_server,110,timeout=10)
            server=poplib.POP3_SSL(self._pop_server, 995,timeout=10)
        #  可以打开或关闭调试信息:
        server.set_debuglevel(1)
        #  POP3服务器的欢迎文字:
        print(server.getwelcome())
        #  身份认证:
        server.user(self._email)
        server.pass_(self._password)
        #  stat()返回邮件数量和占用空间:
        msg_count,msg_size=server.stat()
        print('message count:',msg_count)
        print('message size:',msg_size,'bytes')
        resp,mails, octets = server.list()
        # 查看邮件长度
        index = len(mails)
        print "邮件总数:{}".format(index)
        for i in range(index, -1, -1):
            # lines存储了邮件的原始文本的每一行,
            resp, lines, octets = server.retr(i)
            # 邮件的原始文本:
            # msg_content = b'\r\n'.join(lines)
            msg_content = '\n'.join(lines)
            # 解析邮件:
            msg = Parser().parsestr(msg_content)
            headers = self.get_email_headers(msg)
            # 获取邮件时间,格式化收件时间
            
            # 邮件时间格式转换
            # date2 = time.strftime("%Y%m%d", date1)
            date2 = headers['Date']
            print date2
            # 获取附件
            self.get_attachment(msg, self._save_path)
                

    def get_attachment(self,message,savepath):
        attachments = []
        for part in message.walk():
            filename = part.get_filename()
            if filename:
                filename = self.decode_str(filename)
                data = part.get_payload(decode=True)
                abs_filename = os.path.join(savepath, filename)
                attach = open(abs_filename, 'wb')
                attachments.append(filename)
                attach.write(data)
                attach.close()
        return attachments

if __name__ == "__main__":
    get_enclosure()

遇到的并且待验证问题:

1、报错pop3 ConnectionRefusedError: [WinError 10061] 由于目标计算机积极拒绝,无法连接。

一开始直接用的 server = poplib.POP3(pop3_server),所以连接偶尔报错上面的信息。

之后改成指定端口和超时时间之后就不再有报错信息了

server = poplib.POP3(pop3_server, 110, timeout=10)

或者 server = poplib.POP3_SSL(pop3_server, 995, timeout=10)

2、连接上服务器后,用账号密码登陆失败。报错,Error 10061,unable login on.

这个错误大概率是账号密码错误,请注意163邮箱的,如果开启了客户端授权码功能,登陆的密码应该用授权码!!!

3.连接服务器后,登陆失败:报错<type 'tuple'>: ('-ERR [AUTH] Username and password not accepted.',)

这个错误是我登陆gmail时报错的,账号和密码都正确,但登陆依旧报错,因为Google的安全机制比较繁琐,不做特殊设置的话无法登陆。解决办法:

确认下账号是否开启了二次验证,如果开启了二次验证,则需要设置应用专用密码,使用应用专用密码登陆。

这个前提是开启了二次验证,开启的流程:https://support.google.com/accounts/answer/185833

如果没有开启二次验证,但仍然登陆不了,则检查是否开启了允许安全性较低的应用访问的权限,需要开启这个才能登陆

4。不同的邮箱可能也会导致一些莫名其妙的错误,使用Gmail邮箱,通过api获取邮件发现获取不到整个邮箱中的所有邮件。

用163邮箱则能够全部获取到,起初以为是因为邮件太多,存在分页,仔细看了官方文档并没有发现分页的方法,后来又用Java写了一套类似的读取邮件的服务,调用Java mail 的api发现依旧无法完全获取,比如我Gmail邮箱中有500+邮件,但用api只能拿到257封,很诡异。查了很久,最后确认应该是Gamil邮箱内部的处理导致,需要对Gmail做设置:

具体可参考文档:https://mail.google.com/support/bin/answer.py?hl=cn&answer=13291

如果只是需要下载最近的邮件,可用使用recent:xxxxx@gmail.com的方式,这样就能拿到最近的邮件

5:部署线上可能会遇到:-ERR [AUTH]  Web login required:http://www.xxxxx.xxxx.xxxxx

这个错误是因为你的Google账号在新机器上登陆,由于谷歌的安全策略,被认为是不安全的,被Google拒绝了登陆。可用拿Google账号到新机器登陆一次,并信任该机器。或者暂时解除锁定,或者点击下面链接,完成授权。

https://accounts.google.com/DisplayUnlockCaptcha

 

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值