文档处理
SUN_SU3
这个作者很懒,什么都没留下…
展开
-
ES 环境搭建
ES 搭建安装brew install elasticsearch启动elasticsearch访问http://localhost:9200/kibana 搭建安装brew install kibana启动kibana访问http://localhost:5601/elasticsearch head 搭建安装 Node.js下载 elasticsearch headgit clone git://github.com/mobz/elastic原创 2022-02-28 14:17:53 · 1101 阅读 · 0 评论 -
python docx 一种文档缩略语提取方案
问题描述提取word文档中的缩略语,并将文档内的缩略语替换为全称解决方案首先观察数据,缩小问题范围发现文档内缩略语基本都以表格方式呈现,一般是两列,有时也有四列,所以只考虑解决缩略语为表格且为2、4列的情况,其他特殊情况(段落等非表格形式,列数不为2、4)不考虑缩略语判断逻辑主要就是单元格内文本是大写字符串的比例代码里我写了两种逻辑,V1是判断大写单元格占总的单元格比例,V2是,奇数...原创 2020-04-23 17:15:54 · 1066 阅读 · 0 评论 -
python docx文件读取失败(XMLSyntaxError: xmlParseCharRef: invalid xmlChar value 16, line 2, column 193)
问题描述使用python-docx打开文件时报错:import docxfile_path = './测试.docx'file = docx.Document(file_path)错误信息:XMLSyntaxError: xmlParseCharRef: invalid xmlChar value 16, line 2, column 193这里应该是word文档解析成xml...原创 2020-04-23 15:27:43 · 2091 阅读 · 1 评论 -
python re.sub注意事项
问题描述:import rer'(((^figure)|(^table)|(^图)|(^表)) ?([0-9]|.|-)* ?)。'a = '图26图13图13图13图17图27图14图27图27图27图27图13图13图17图27图14图27图27图27图27'b = re.sub(pattern, r'\1.', a)本想写个正则将特定条件下但句号改为点(图3.2。处理成图2.3...原创 2020-04-14 18:15:25 · 477 阅读 · 0 评论 -
python pdf获取页面大小(高度、宽度)
问题描述如题,获取PDF页面的高度和宽度,这里仅获取首页的高度和宽度解决方案两种解决方案,分别通过 pdfplumber 和 PyPDF2 两个包来实现方案1import timeimport pdfplumberpath = 'E:/data/DT_test/PDF_test/all_type.pdf'def run(path): with pdfplumber.op...原创 2020-03-05 14:51:12 · 9350 阅读 · 3 评论 -
python docx文档内容提取与写入(汇总)
通过python 提取docx文件中的文本内容,包括:段落、文本域、页眉页脚、目录、超链接、脚注等各处文本import osimport reimport docximport lxmlimport shutilimport loggingfrom io import BytesIOfrom lxml import etreefrom pydocx import PyDocXf...原创 2020-01-07 14:55:18 · 7232 阅读 · 3 评论 -
通过hashlib提供的摘要算法判断文件内容是否一致
通过判定文件内容一致,返回之前处理结果,减少操作import hashlibimport docxdef hash(data): md5 = hashlib.md5() md5.update(data) return md5.hexdigest()docx1 = 'E:/data/test1.docx'docx2 = 'E:/data/test2.docx'...原创 2019-11-01 14:44:25 · 213 阅读 · 0 评论 -
python zip压缩文件下载及解压
第一步 zip文件下载这里是多个zip文件下载链接存在列表中,用requests请求链接,写入到本地文件夹,命名同下载链接中命名相同,通过设置参数stream=True,可使下载的文件分块持续写入磁盘文件中,否则会先下载到内存中,最后一起写入磁盘文件。import requestsurls = [URL1, URL2, URL3]for url in urls: response...原创 2019-09-19 10:34:43 · 7180 阅读 · 0 评论 -
python正则表达式re.sub应用
问题描述将html文件中图片宽度大于518的图片,将其宽和高都设置为100%解决方案应用正则表达式re.sub解决,re.sub(pattern, repl, string, count=0, flags=0),其中第二个参数repl可以传一个函数,返回值为替换的字符串def img_width(matched): try: img = matched.group("im...原创 2019-09-18 17:06:13 · 241 阅读 · 0 评论 -
python docx修改word内容保留图片
问题描述修改word中文本,如下代码,保存时会导致word中的部分图片消失from docx import Documentpath1 = 'test_in.docx'path2 = 'test_out.docx'file = docx.Document(path1)for parg in file.paragraphs: if parg.text: parg....原创 2019-03-22 18:00:05 · 4355 阅读 · 0 评论 -
python docx提取word中的目录及文本框中的文本
问题描述同标题解决方案因未在docx库找到直接识别word中目录及文本框中文本的方法,所以采用了一个“笨”方法,docx库可以把word文档解析成xml格式,以解析xml的方式查找目录及文本框中文本,具体做法:迭代出文档的所有element,其中目录的tag为“std”,找到它后提出他的所有文本即为目录文本;文本框的tag 为“AlternateContent”,找到它后还要继续下钻寻找t...原创 2019-08-08 10:52:53 · 15858 阅读 · 8 评论 -
python docx处理word文档中表格合并问题
#问题描述python中用docx库读取word文件,若word文件中包含合并的表格表格则通过docx读取显示:file = docx.Document(path)for table in file.tables: for row in table.rows: for cell in row.cells: print(cell.text)...原创 2019-03-20 14:11:08 · 18343 阅读 · 15 评论 -
python pptx文本提取
最近做的项目要把PPT中的文本提取出来做其他任务,现把PPT提取文本的过程摘出来做个记录,主要是组合shape需要通过迭代的方式进行解析(iter_shape函数)import pptxdef iter_shape(shape, text_shapes): if type(shape) == pptx.shapes.group.GroupShape: for ssha...原创 2019-09-10 15:42:24 · 4204 阅读 · 2 评论