因为往来邮件量比较大,为了统计分析两年的变化情况,决定把邮件从Outlook读取并写入MySQL,然后通过Excel查询分析。这里分享一下完整的提取Email信息的思路和代码。
另外,如果不用数据库,也可以利用同样的思路直接保存到Excel文件,不过需要注意的是,每个单元格最多存储3.2万字符,一般也足够了。
第一步:创建数据库。
通过MySQL可视化客户端新建数据库,字符集选择utf8,字符集校对选择utf8_general_ci。
第二步:通过Python脚本创建数据表。
字段长度可以修改,需要考虑Email各种信息的不同长度,也需要注意字段类型的匹配。
比如发件人可能只需要很少字符,但邮件正文就可能几万的字符。
# -*- coding: utf-8 -*-
import pymysql
# 1.链接数据库(用户名和密码对应数据库访问user/password)
conn = pymysql.connect(
host='127.0.0.1',
port=3306,
user='xxxx',
passwd='xxxx',
db='myemail_zl',
charset='utf8')
def connect_mysql(conn):
# 判断链接是否正常
conn.ping(True)
# 建立操作游标
cursor=conn.cursor()
# 设置数据输入输出编码格式
cursor.execute('set names utf8')
return cursor
# 建立链接游标
cur=connect_mysql(conn)
# 2、添加数据库表头
# ID, 根级目录, 一级目录, 二级目录, 接收时间, 发件人, 收件人, 抄送人, 邮件主题, 邮件ID, 会话主题, 会话ID, 会话历史记录ID, 邮件内容
cur.execute('''CREATE TABLE IF NOT EXISTS email_box2 (
ID INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
根级目录 VARCHAR(255),
一级目录 VARCHAR(255),
二级目录 VARCHAR(255),
接收时间 VARCHAR(100),
发件人 VARCHAR(200),
收件人 VARCHAR(2550),
抄送人 VARCHAR(2550),
邮件主题 VARCHAR(255),
邮件ID VARCHAR(255),
会话主题 VARCHAR(255),
会话ID VARCHAR(255),
会话历史记录ID VARCHAR(2550),
邮件内容 MEDIUMTEXT
) DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci''')
# 3、提交&关闭链接
conn.commit()