python调节markdown转word后图和表标题的中英文分行

pandoc和pandoc-crossref提供了自动编号功能,但是没有提供中英文自动编号,因此我将中英文标题写在一行,然后利用python-docx库,对导出的docx文档做了进一步的编辑,实现中英文标题分行,且不影响自动编号。

在markdown将图表标题的中英文版写入到原来的地方,中英文之间使用关键字分割开,例如Fig. Table等。

markdown文件中图片的插入格式为

![xxx意图 Fig. Diagram ofxxx](figure%2F%E7%A2.png){#fig:d5z}

markdown文件中表格标题的格式为

: 算法关键参数 Table Key parameters of the xx algorithm

利用正则匹配,找到这个图表标题,并在Fig前面插入一个换行符号即可。每个人设置的图或表标题格式不同,需要自己修改正则匹配表达式

注意python-docx库暂时(2023-02-08 21:21:18)无法识别超链接文本。

我的python脚本如下:

from docx import Document
import re

def extract_fig_tbl_caption(paragraph):
    # Use regular expression to extract the caption
    match1 = re.search("^图 (\d+.\d+) (.*) Fig. (.*)", paragraph.text)
    match2 = re.search("^表 (\d+.\d+) (.*) Table (.*)", paragraph.text)
    if match1:
        chinese_caption = "图 " + match1.group(1) + " " + match1.group(2)
        english_caption = "Fig. " + match1.group(1) + " "+match1.group(3)        
        return (chinese_caption, english_caption)
    elif match2:
        chinese_caption = "表 " + match2.group(1) + " " + match2.group(2)
        english_caption = "Table " + match2.group(1) + " "+match2.group(3)        
        return (chinese_caption, english_caption)
    else:
        return (None, None)
def ajust_fig_tbl_title(docxfilename):
    doc=Document(docxfilename)
    for paragraph in doc.paragraphs:
        chinese_caption, english_caption = extract_fig_tbl_caption(paragraph)
        if chinese_caption and english_caption:
            paragraph.text = chinese_caption+'\n'+english_caption
    # Save the updated docx file
    doc.save(docxfilename)
 if __name__=='__main__':
    ajust_fig_tbl_title('test.docx') #调整图片和表格的标题
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值