达叔926词汇pdf单词提取、保存

本文介绍如何使用Python从PDF中提取单词,通过正则表达式筛选,存储到Excel,最后转换成CSV以导入Anki进行学习。涉及到的库包括pdfplumber和openpyxl。
摘要由CSDN通过智能技术生成

需求:将pdf中的单词,通过正则表达式提取,保存到excel将excel文件另存为.csv格式,导入到anki制成卡牌学习。

注:因为本人是业余,水平有限,如果讲解有错误,欢迎指正。另外,本文使用的926词汇pdf资料请自行准备。

目录

全部代码

代码效果 

提前准备

pdf文件与内容导入

pdf文件导入

pdf内容导入

正则匹配|内容筛选

将结果存入Excel


全部代码

import pdfplumber
import re
import openpyxl

ad=[]
k=[]
for l in range(1,19):
    adress=f"D:/BaiduNetdiskDownload/李达926逐词精讲-词汇{l}笔记.pdf"
    ad.append(adress)
    pdf = pdfplumber.open(adress)
    print(f'正在写入{adress}')
    for i in range(len(pdf.pages)):
       page = pdf.pages[i]
       wk = page.extract_text()
       k.append(wk)
wb = ''.join(k)
wb = wb.replace('改变就橙啦橙啦,大学生学习成长平台'," ")
num = re.findall('(\d+).*?\[', wb)
text = re.findall('\d+(.*?)\[', wb)
chinese = re.findall('](.*?)【真题例句',wb,re.S)   #re.S的作用是使匹配包含换行符\n、\t,即空格与换行

xs = openpyxl.Workbook()
xl = xs.active
xl.title = '达叔926'
xl['A1']='序号'
xl['B1']='英文'
xl['C1']='中文|助记'
q=2
for a,b,c in zip(num,text,chinese):
    xl.cell(q,1,a)
    xl.cell(q,2,b)
    xl.cell(q,3,c)
    q+=1
xs.save('达叔926.xlsx')

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值