- 博客(5)
- 资源 (5)
- 收藏
- 关注
原创 python-docx解析文档报错:There is no item named ‘word/NULL‘ in the archive解决方法
打开document.xml.rels文件以后,查找NULL,会发现某一行的 Relationship Target="../NULL"。重写load_from_xml函数,具体的操作就是将以下代码复制到"doc = Document('xx.docx')"这个代码之前。另外,在后续提取图片或对象的时候还是会报错KeyError,用try捕获异常,跳过这个元素即可。写在最后:最近在做通用文档解析,发现网上很多资料都比较零散,基本就是东找找西找找,再问问GPT等,一步步实现。欢迎有此烦恼的同学一起交流~
2024-10-29 16:25:26
3055
3
原创 fitz使用记录
说实话,这个函数我用下来好像和pdfplumber的效果差不多,最后我用的是tabula,前两个有些表格数据提取不出来,但是这三个效果都还是一般般,表格提取可优化的点好多好杂好难,我先放弃了。参数调整提取表格的方式,选"text"可以提取无线条表格,然而我需要解析各类pdf,因此效果总是差强人意,可能事先能判断表格类型的固定格式的pdf会比较好做。配合clip提取指定范围图片,用xref也可以提取,但是提出来的没有标题和附注,而且有时候还会把一整个页面当做图片切出来,需要过滤。Block 每个文本块。
2023-11-17 16:29:44
835
原创 win10 docker 环境变量配置
之前在自己的电脑上装docker for win10,系统环境变量在安装的时候是默认配置好的。之后在电脑上配Java环境,再在cmd上运行docker,显示的是:docker 不是内部命令。 吐血,上网找了很久,包括配置环境变量%system32%啥的到path中,重启,都没有用,搞了好久。 这种情况有两种解决方法: 1、装个Kitematic。之前习惯了用linux上的doc...
2018-07-09 16:44:02
10624
3
原创 awk相关
记录一下awk的基本用法。。。在linux命令行中cd到指定文件夹后输入#!/bin/awk然后打开文件进行操作 cat filename |awk '{......}',其中{ }里面写的就是执行语句; 如果要写到另一个文件中 就是在awk'{...}' > output_file。awk根据将文件每行的内容一块块的,用$1,$2。。。表示,比如文本'aa bb cc'的 $1='a
2016-05-04 21:12:16
247
原创 matlab python相关
矩阵评分最多的500个用户索引ss=sum(X_aux~=0);[c,pos]=sort(ss,'descend');
2016-02-26 22:39:59
253
基于矩阵分解的迁移协同过滤模型 Bin Li
2018-07-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅