批量提取docx文档中特定样式(如黑体加粗)及位置的文本

被处理:批量论文docx,具有固定格式/结构。
提取:中英文论文题目(多行)及全部作者(一行),并写入excel
定位条件:
题目-黑体加粗,作者-紧跟题目后
中文题目在首行开始
英文题目在DOI行下一行开始,某些具有空行

import os
import pandas as pd
import docx

#提取中文标题及全部作者
def Ctitle_author(filepath):
    doc=docx.Document(filepath)
    ps=doc.paragraphs
    Ctitle='' #赋空值,用于后面累加标题字符串
    Cauthor=''  #也最好赋值变为局部变量,防止与全局变量混淆
    for p in ps:
        if p.runs[0].bold==True:  #文本是否黑体
            Ctitle+=p.text
            continue
        else:
            Cauthor=p.text
       
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值