中信所英文PDF翻译
白羊羊
最不像程序员的程序猿
展开
-
Java正则表达式 url和email并进行分割
首先说明,本人研一新生,编程开发经历较少,如有不对,还望各位大神多多指教!最近在做关于英文PDF翻译为中文PDF的项目。其中,机器翻译接口不能识别url和Email,需要本地将URL和Email进行提取,之后将内容分割,把非URL和Email送入机器翻译的接口中。在识别URL和Email上,我选择的是正则表达式,其中匹配的URL和Email如下:识别Email :(-|(\\w)|(\原创 2016-09-16 20:40:48 · 2268 阅读 · 0 评论 -
Java 识别图片分辨率的问题
近期做关于识别PDF的项目,里面涉及到提取PDF中的图片,并识别图片的分辨率,对较小分辨率的图片,再生成新的PDF的时候舍弃。对于提取PDF中的图片信息可以使用PDFBox库,很简单也很灵活(当然也存在bug,我在提取某个PDF文件中图片的时候,发现有一些图片在原文件中根本不存在,还希望来个大神解答一下。。。),废话少说,直接附上代码供大家参考:原创 2016-09-19 16:44:47 · 4760 阅读 · 0 评论