如何加载和解析EverNote导出文件(.enex)

最新推荐文章于 2025-06-04 16:07:42 发布

eahba

最新推荐文章于 2025-06-04 16:07:42 发布

阅读量522

点赞数 8

文章标签： python

本文链接：https://blog.csdn.net/eahba/article/details/145923354

版权

EverNote是一个用于存档和创建笔记的应用程序，可以嵌入照片、音频和保存的网页内容。笔记存储在虚拟"笔记本"中，可以进行标签化、注释、编辑、搜索和导出。本教程将展示如何从磁盘加载EverNote导出文件(.enex)并解析每条笔记。

技术背景介绍

EverNote提供了一种将笔记本导出为.enex文件的方法，这种文件格式是EverNote的专有格式，包含多个笔记的内容。本文介绍了如何使用Python解析这些.enex文件，并将每个笔记创建为独立的文档。

核心原理解析

要解析.enex文件，我们需要处理XML格式的数据并将其转换为我们需要的结构。本文使用lxml和html2text库来解析EverNote笔记，并使用EverNoteLoader类将笔记加载为文档。

代码实现演示

首先，我们需要安装必要的库：

# 安装解析EverNote笔记所需的库
%pip install --upgrade --quiet lxml
%pip install --upgrade --quiet html2text

接下来，我们编写代码来加载和解析EverNote导出文件：

from langchain_community.document_loaders import EverNoteLoader

# 加载示例EverNote导出文件
loader = EverNoteLoader("example_data/testing.enex")

# 默认情况下，所有笔记会合并到一个单独的文档中
documents = loader.load()
for doc in documents:
    print(doc.page_content)

# 输出：
# testing this
# 
# what happens?
# 
# to the world?**Jan - March 2022**

如果我们希望每条笔记都成为一个独立的文档，可以设置参数load_single_document=False：

loader = EverNoteLoader("example_data/testing.enex", load_single_document=False)
documents = loader.load()
for doc in documents:
    print(f"Title: {doc.metadata['title']}")
    print(f"Content: {doc.page_content}\n")