一、成果展示
二、简介
这是我试图将论文写作进行自动化处理的一个记录,这是开始的第一篇,根据已经写好的脚注进行参考文献的添加,使得自己不用一个一个的复制脚注到参考文献中去。在设想中不仅进行论文格式处理,如参考文献的自动添加、标题与正文字号的批量处理、脚注自动添加等形式上的问题,可能更进一步涉及实质内容例如提供词向量对可能导致文章重复率计算的的词语替换乃至使用GPT-2,GPT-3自动化写作
三、实现过程
通过脚注生成参考文献
(一)mammoth包将docx转为html
python-docx包中没有发现可以读取脚注的方法,而在csdn中也没有找到,关于脚注的提取大多都是将docx文件转为html后进行提取的,因而我也是采取这种路径
mammoth可以将docx转为html即
转化过程为:
import mammoth
def docx_html(input):
"""这是由于脚注无法读取"""
"""转为html"""
with open(input, "rb") as docx_file:
result = mammoth.convert_to_html(docx_file)
html = result.value # The generated HTML
temp = self.input.split(".")[0]+".ht