pandoc和pandoc-crossref提供了自动编号功能,但是没有提供中英文自动编号,因此我将中英文标题写在一行,然后利用python-docx库,对导出的docx文档做了进一步的编辑,实现中英文标题分行,且不影响自动编号。
在markdown将图表标题的中英文版写入到原来的地方,中英文之间使用关键字分割开,例如Fig. Table等。
markdown文件中图片的插入格式为
![xxx意图 Fig. Diagram ofxxx](figure%2F%E7%A2.png){#fig:d5z}
markdown文件中表格标题的格式为
: 算法关键参数 Table Key parameters of the xx algorithm
利用正则匹配,找到这个图表标题,并在Fig前面插入一个换行符号即可。每个人设置的图或表标题格式不同,需要自己修改正则匹配表达式
注意python-docx库暂时(2023-02-08 21:21:18)无法识别超链接文本。
我的python脚本如下:
from docx import Document
import re
def extract_fig_tbl_caption(paragraph):
# Use regular expression to extract the caption
match1 = re.search("^图 (\d+.\d+) (.*) Fig. (.*)", paragraph.text)
match2 = re.search("^表 (\d+.\d+) (.*) Table (.*)", paragraph.text)
if match1:
chinese_caption = "图 " + match1.group(1) + " " + match1.group(2)
english_caption = "Fig. " + match1.group(1) + " "+match1.group(3)
return (chinese_caption, english_caption)
elif match2:
chinese_caption = "表 " + match2.group(1) + " " + match2.group(2)
english_caption = "Table " + match2.group(1) + " "+match2.group(3)
return (chinese_caption, english_caption)
else:
return (None, None)
def ajust_fig_tbl_title(docxfilename):
doc=Document(docxfilename)
for paragraph in doc.paragraphs:
chinese_caption, english_caption = extract_fig_tbl_caption(paragraph)
if chinese_caption and english_caption:
paragraph.text = chinese_caption+'\n'+english_caption
# Save the updated docx file
doc.save(docxfilename)
if __name__=='__main__':
ajust_fig_tbl_title('test.docx') #调整图片和表格的标题