哈哈,突然发现自己还有个账号且这个账号还有写过文章,本来想写小红书的~最近在搞PDF解析,用来用去发现fitz算是比较好用的,记录几个常用的东西。不得不说,pdf解析是个大工程,我等一人之力还是不够用。。。
整体的 Open Doc
页面Page
bound 页面大小
Rect坐标(x0, y0, x1, y1)对应(左,上,右,下)
Clip截取范围
提取文本
Get_text
Text 所有纯文本
Word 每个单词(没有空格)
Block 每个文本块
哈哈,突然发现自己还有个账号且这个账号还有写过文章,本来想写小红书的~最近在搞PDF解析,用来用去发现fitz算是比较好用的,记录几个常用的东西。不得不说,pdf解析是个大工程,我等一人之力还是不够用。。。
整体的 Open Doc
页面Page
bound 页面大小
Rect坐标(x0, y0, x1, y1)对应(左,上,右,下)
Clip截取范围
提取文本
Get_text
Text 所有纯文本
Word 每个单词(没有空格)
Block 每个文本块