分享一个microsoft开源的Python工具——markitdown,轻松将各类文件转换为Markdown格式。

markitdown支持的文件格式
PDF(.pdf)
PowerPoint(.pptx)
Word(.docx)
Excel(.xlsx)
图片(支持EXIF元数据和OCR识别)
音频(支持EXIF元数据和语音转录)
HTML(包括对Wikipedia等特殊处理)
各种其他基于文本的格式(如csv、json、xml等)
ZIP(遍历压缩包内容并逐一转换每个文件)
markitdown使用
安装
pip install markitdown
Python代码中使用小例子
from markitdown import MarkItDown
# 导入MarkItDown类
markitdown = MarkItDown()
# 创建MarkItDown对象
result = markitdown.convert("test.xlsx")
# 转换test.xlsx为Markdown格式
print(result.text_content)
# 输出转换后的内容
Python代码中使用小例子(借助大模型)
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o") #指定使用"gpt-4o"模型
result = md.convert("example.jpg")
print(result.text_content)
终端使用小例子
markitdown path-to-file.pdf > document.md
#将path-to-file.pdf转为document.md文件
进一步学习:https://github.com/microsoft/markitdown
-END-
往期精彩回顾
写了一本适合本科生的机器学习入门书适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
交流群
请备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“加群。
(也可以加入机器学习交流qq群772479961)