使用Python解析邮件文件(.eml和.msg)

bBADAS

于 2025-03-23 09:39:50 发布

阅读量301

点赞数 6

文章标签： python 开发语言前端

本文链接：https://blog.csdn.net/bBADAS/article/details/146451900

版权

在现代信息处理和自动化工作流中，解析和处理电子邮件文件(.eml和.msg)的能力是非常重要的。本文将介绍如何使用Unstructured库来加载和解析电子邮件文件，并从中提取有用的信息。

技术背景介绍

电子邮件文件通常以两种格式存在： .eml 和 .msg。.eml 是一种通用的电子邮件格式，而 .msg 是专用于 Microsoft Outlook 的格式。为了处理这些文件，我们可以使用 UnstructuredEmailLoader 和 OutlookMessageLoader 来分别加载和解析它们。

核心原理解析

处理电子邮件文件的核心在于有效解析文件的结构和提取可用的数据块。这可以通过 Unstructured 库的 “元素” 模式来实现，该模式允许我们分离邮件的不同部分，如发件人、收件人、主题等。同时，我们还可以处理邮件的附件。

代码实现演示

安装必要的库

首先，确保你安装了 unstructured 和 extract_msg 库：

%pip install --upgrade --quiet unstructured extract_msg

加载并解析 .eml 文件

from langchain_community.document_loaders import UnstructuredEmailLoader

# 创建loader对象
loader = UnstructuredEmailLoader("./example_data/fake-email.eml", mode="elements", process_attachments=True)

# 加载数据
data = loader.load()

# 打印解析后的邮件内容
for document in data:
    print(document.page_content)
    print(document.metadata)

# 示例输出
# Document(
#     page_content='This is a test email to use for unit tests.',
#     metadata={
#         'source': './example_data/fake-email.eml',
#         'sent_from': ['Matthew Robinson <mrobinson@unstructured.io>'],
#         ...
#     }
# )

加载并解析 .msg 文件

from langchain_community.document_loaders import OutlookMessageLoader

# 创建loader对象
loader = OutlookMessageLoader("./example_data/fake-email.msg")

# 加载数据
data = loader.load()

# 打印解析后的邮件内容
for document in data:
    print(document.page_content)
    print(document.metadata)

# 示例输出
# Document(
#     page_content='This is a test email to experiment with the MS Outlook MSG Extractor',
#     metadata={
#         'source': './example_data/fake-email.msg',
#         'subject': 'Test for TIF files',
#         ...
#     }
# )