- 博客(4)
- 资源 (5)
- 收藏
- 关注
原创 fitz使用记录
说实话,这个函数我用下来好像和pdfplumber的效果差不多,最后我用的是tabula,前两个有些表格数据提取不出来,但是这三个效果都还是一般般,表格提取可优化的点好多好杂好难,我先放弃了。参数调整提取表格的方式,选"text"可以提取无线条表格,然而我需要解析各类pdf,因此效果总是差强人意,可能事先能判断表格类型的固定格式的pdf会比较好做。配合clip提取指定范围图片,用xref也可以提取,但是提出来的没有标题和附注,而且有时候还会把一整个页面当做图片切出来,需要过滤。Block 每个文本块。
2023-11-17 16:29:44 388
原创 win10 docker 环境变量配置
之前在自己的电脑上装docker for win10,系统环境变量在安装的时候是默认配置好的。之后在电脑上配Java环境,再在cmd上运行docker,显示的是:docker 不是内部命令。 吐血,上网找了很久,包括配置环境变量%system32%啥的到path中,重启,都没有用,搞了好久。 这种情况有两种解决方法: 1、装个Kitematic。之前习惯了用linux上的doc...
2018-07-09 16:44:02 9723 3
原创 awk相关
记录一下awk的基本用法。。。在linux命令行中cd到指定文件夹后输入#!/bin/awk然后打开文件进行操作 cat filename |awk '{......}',其中{ }里面写的就是执行语句; 如果要写到另一个文件中 就是在awk'{...}' > output_file。awk根据将文件每行的内容一块块的,用$1,$2。。。表示,比如文本'aa bb cc'的 $1='a
2016-05-04 21:12:16 191
原创 matlab python相关
矩阵评分最多的500个用户索引ss=sum(X_aux~=0);[c,pos]=sort(ss,'descend');
2016-02-26 22:39:59 196
基于矩阵分解的迁移协同过滤模型 Bin Li
2018-07-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人