提取pdf中所有参考文献并转换成word指定格式

在写一些作业报告时需要大段的论文中的文献引用,但论文为pdf格式,使用pdf转word工具得到的结果有时不尽如人意,手工复制下来后格式混乱,费时费力。
在这里插入图片描述

这里提供一个小技巧,简单但是繁琐

工具:word 浏览器

1 将pdf中的文献引用复制到word中

2 将所有换行符替换成空格
在这里插入图片描述

3 打开浏览器按下F12打开开发者工具调试页面,进入console控制台

4 定义s=“需要转换的字符串”,保证""中没有换行符

5 观察字符串使用特定正则将需要的东西替换成自己想要的格式
在这里插入图片描述
在这里插入图片描述
其中使用到字符串的replace函数

s
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要实现提取文件夹里所有PDF参考文献列表并以Excel格式导出来,可以使用Python的第三方库 PyPDF2 和 pandas。 以下是实现步骤: 1. 安装 PyPDF2 和 pandas 库(在终端或命令行执行以下命令): ``` pip install PyPDF2 pip install pandas ``` 2. 导入 PyPDF2 和 pandas 库: ```python import os import PyPDF2 import pandas as pd ``` 3. 定义一个函数,用于提取 PDF 参考文献列表: ```python def extract_references(filepath): # 创建一个 PDF 读取器对象 pdf_reader = PyPDF2.PdfFileReader(filepath) # 获取 PDF 文档所有的页面数 num_pages = pdf_reader.getNumPages() # 定义一个空列表,用于存储参考文献 references = [] # 循环遍历每一页 for page_num in range(num_pages): # 获取当前页的文本内容 page = pdf_reader.getPage(page_num) text = page.extractText() # 查找参考文献关键字 reference_start = text.find("References") reference_end = text.find("©", reference_start) if reference_start != -1 and reference_end != -1: # 提取参考文献并添加到列表 reference_text = text[reference_start:reference_end] references.append(reference_text) return references ``` 4. 定义一个函数,用于将参考文献列表导出到 Excel 文件: ```python def export_to_excel(references, output_file): # 创建一个空 DataFrame df = pd.DataFrame(columns=["Reference"]) # 循环遍历每个参考文献,并添加到 DataFrame for reference in references: df = df.append({"Reference": reference}, ignore_index=True) # 将 DataFrame 导出到 Excel 文件 df.to_excel(output_file, index=False) ``` 5. 遍历文件夹的所有 PDF 文件,提取参考文献列表并保存到 Excel 文件: ```python # 定义文件夹路径和输出文件名 folder_path = "pdf_folder" output_file = "references.xlsx" # 获取文件夹所有的 PDF 文件 pdf_files = [f for f in os.listdir(folder_path) if f.endswith(".pdf")] # 定义一个空列表,用于存储所有的参考文献 all_references = [] # 循环遍历每个 PDF 文件,提取参考文献列表并添加到 all_references 列表 for pdf_file in pdf_files: file_path = os.path.join(folder_path, pdf_file) references = extract_references(file_path) all_references.extend(references) # 将所有的参考文献导出到 Excel 文件 export_to_excel(all_references, output_file) ``` 在上述代码,`pdf_folder` 是存储 PDF 文件的文件夹路径,`references.xlsx` 是导出的 Excel 文件名,可以根据需要进行修改。 执行以上代码后,程序会自动遍历指定的文件夹所有的 PDF 文件,提取参考文献列表,并将所有的参考文献导出到指定的 Excel 文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值