python附件_如何用python整理附件

最新推荐文章于 2024-04-25 02:13:53 发布

史濮源

最新推荐文章于 2024-04-25 02:13:53 发布

阅读量126

点赞数

文章标签： python附件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36462845/article/details/112894010

版权

目前我的文件夹中有500多份简历，如果我想知道一些信息，比如学校，学历之类的，我需要打开每一份word去查看，太耗时间了。这个时候python需要出马了。

目标

目前类似截图中的word有600+，想简单的进行整理：

可以整理出一份excel用于导航(类似目录)，可以通过excel来快速定位到所要的附件，如下图效果：

具体实现

有了目标，就具体说说如何实现的，整理思路还是比较简单的，就是遍历所有的word文件，将word中关键的信息获取到并保存到excel中。

这里列下主要用到的模块：

import xlsxwriter

import subprocess

import os

import docx

import sys

import re

xlsxwriter主要用来操作excel，xlsxwriter只能用来写，效率上比xlwt要高，数据量不多，用xlwt也ok。

subprocess主要用来调用命令行，因为docx模块无法解析doc的word文件，所以在解析前将doc的文件转换成docx文件。

os主要用于遍历文件夹获取文件。

docx主要用来解析word文档。

规范下文件名

首先我们先规范下文件名称，因为在使用subprocess.call调用命令时，空格，特殊符号之类的没办法转义导致报错，所以干脆在之前就清理掉这个潜在问题。

def remove_doc_special_tag():

for filename in os.listdir(path):

otherName = re.sub("[s+!/_,$%^*(+"')]+|[+——()?【】“”！，。？、~@#￥%……&*()]+", "",filename)

os.rename(os.path.join(path,filename),os.path.join(path,otherName))

遍历文件

之后我们就可以开始正题，遍历每个文件进行解析：

path='/Users/cavin/Desktop/files'

for filename in os.listdir(path):

...具体逻辑...

这里碰到一个问题，首先是docx模块无法解析doc的word文档，由于又是使用的mac，所以也无法使用win32com模块，这个问题就比较尴尬，后来google发现可以通过命令将doc转换成docx。

这里注意下转换后的docx文件样式是丢失的，但这不影响我获取文本信息。

于是就有了这段代码，如果是doc的文件，优先转换成docx，待解析完之后再移除掉。

if filename.endswith('.doc'):

subprocess.call('textutil -convert docx {0}'.format(fullname),shell=True)

fullname=fullname[:-4]+".docx"

sheetModel= etl_word_files(fullname)#解析文本逻辑

subprocess.call('rm {0}'.format(fullname),shell=True) #移除转换的文件

解析word文件

接下来就是解析文件了，通过docx模块很容易实现,具体的解析逻辑就不贴了，就是遍历每一行，根据一些关键字，符号来截取数据(每个简历格式基本上差不多的)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。