【Python】微软开源Python Markdown转换工具

分享一个microsoft开源的Python工具——markitdown,轻松将各类文件转换为Markdown格式。

6fb896dd8546d025fffa258d2180448d.png

markitdown支持的文件格式

  • PDF(.pdf)

  • PowerPoint(.pptx)

  • Word(.docx)

  • Excel(.xlsx)

  • 图片(支持EXIF元数据和OCR识别)

  • 音频(支持EXIF元数据和语音转录)

  • HTML(包括对Wikipedia等特殊处理)

  • 各种其他基于文本的格式(如csv、json、xml等)

  • ZIP(遍历压缩包内容并逐一转换每个文件)


markitdown使用

  • 安装

pip install markitdown
  • Python代码中使用小例子

from markitdown import MarkItDown  
# 导入MarkItDown类

markitdown = MarkItDown()  
# 创建MarkItDown对象

result = markitdown.convert("test.xlsx")  
# 转换test.xlsx为Markdown格式

print(result.text_content)  
# 输出转换后的内容
  • Python代码中使用小例子(借助大模型)

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o") #指定使用"gpt-4o"模型
result = md.convert("example.jpg")
print(result.text_content)
  • 终端使用小例子

markitdown path-to-file.pdf > document.md
#将path-to-file.pdf转为document.md文件

进一步学习:https://github.com/microsoft/markitdown

-END-
 
 

507ec575ab6850f8f68840b2ef3c74fb.jpeg

 
 
 
 
 
 
 
 
 
 
 
 
往期精彩回顾




写了一本适合本科生的机器学习入门书适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
  • 交流群

请备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“加群。

也可以加入机器学习交流qq群772479961)

1ced5d3743b059d688b9c0b05bcb9c13.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值