改文章可解决绝大部分网站无法使用爬虫获取供应商电话的功能,如使用集搜客GooSeeker,八爪鱼爬虫软件都无法做到
文件含java代码,Tesseract-OCR64位免安装压缩包+各种语言包
文件下载链接:https://download.csdn.net/download/u010323587/13980154
网页定点截图功能
Tesseract-OCR识别图片技术,并去掉无用字符写入txt文件
使用方法:
爬虫软件抓取有用连接方如如下文件中,同项目中的路径,调整项目中所需截图的位置,运行即可获取截图(注意项目中图片截取存放的位置)
将图片位置文件夹给到图片识别类中,即可识别所有图片