被处理:批量论文docx,具有固定格式/结构。
提取:中英文论文题目(多行)及全部作者(一行),并写入excel
定位条件:
题目-黑体加粗,作者-紧跟题目后
中文题目在首行开始
英文题目在DOI行下一行开始,某些具有空行
import os
import pandas as pd
import docx
#提取中文标题及全部作者
def Ctitle_author(filepath):
doc=docx.Document(filepath)
ps=doc.paragraphs
Ctitle='' #赋空值,用于后面累加标题字符串
Cauthor='' #也最好赋值变为局部变量,防止与全局变量混淆
for p in ps:
if p.runs[0].bold==True: #文本是否黑体
Ctitle+=p.text
continue
else:
Cauthor=p.text