python调节markdown转word后图和表标题的中英文分行

最新推荐文章于 2024-05-14 11:00:23 发布

zdlwhereyougo

最新推荐文章于 2024-05-14 11:00:23 发布

阅读量272

点赞数

文章标签： python word 开发语言 Powered by 金山文档

本文链接：https://blog.csdn.net/weixin_39361931/article/details/128943977

版权

pandoc和pandoc-crossref提供了自动编号功能，但是没有提供中英文自动编号，因此我将中英文标题写在一行，然后利用python-docx库，对导出的docx文档做了进一步的编辑，实现中英文标题分行，且不影响自动编号。

在markdown将图表标题的中英文版写入到原来的地方，中英文之间使用关键字分割开，例如Fig. Table等。

markdown文件中图片的插入格式为

![xxx意图 Fig. Diagram ofxxx](figure%2F%E7%A2.png){#fig:d5z}

markdown文件中表格标题的格式为

: 算法关键参数 Table Key parameters of the xx algorithm

利用正则匹配，找到这个图表标题，并在Fig前面插入一个换行符号即可。每个人设置的图或表标题格式不同，需要自己修改正则匹配表达式

注意python-docx库暂时（2023-02-08 21:21:18）无法识别超链接文本。

我的python脚本如下：

from docx import Document
import re

def extract_fig_tbl_caption(paragraph):
    # Use regular expression to extract the caption
    match1 = re.search("^图 (\d+.\d+) (.*) Fig. (.*)", paragraph.text)
    match2 = re.search("^表 (\d+.\d+) (.*) Table (.*)", paragraph.text)
    if match1:
        chinese_caption = "图 " + match1.group(1) + " " + match1.group(2)
        english_caption = "Fig. " + match1.group(1) + " "+match1.group(3)        
        return (chinese_caption, english_caption)
    elif match2:
        chinese_caption = "表 " + match2.group(1) + " " + match2.group(2)
        english_caption = "Table " + match2.group(1) + " "+match2.group(3)        
        return (chinese_caption, english_caption)
    else:
        return (None, None)
def ajust_fig_tbl_title(docxfilename):
    doc=Document(docxfilename)
    for paragraph in doc.paragraphs:
        chinese_caption, english_caption = extract_fig_tbl_caption(paragraph)
        if chinese_caption and english_caption:
            paragraph.text = chinese_caption+'\n'+english_caption
    # Save the updated docx file
    doc.save(docxfilename)
 if __name__=='__main__':
    ajust_fig_tbl_title('test.docx') #调整图片和表格的标题

zdlwhereyougo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python调节markdown转word后图和表标题的中英文分行

pandoc和pandoc-crossref提供了自动编号功能，但是没有提供中英文自动编号，因此我将中英文标题写在一行，然后利用python-docx库，对导出的docx文档做了进一步的编辑，实现中英文标题分行，且不影响自动编号。利用正则匹配，找到这个图表标题，并在Fig前面插入一个换行符号即可。在markdown将图表标题的中英文版写入到原来的地方，中英文之间使用关键字分割开，例如Fig. Table等。注意python-docx库暂时（2023-02-08 21:21:18）无法识别超链接文本。
复制链接

扫一扫