大众点评 java_大众点评评分爬取-图文识别ORC

本文介绍了如何使用Selenium爬取大众点评的评分页面,并通过截图和OCR技术处理图片以获取评分数据。在图片预处理环节,清理噪点、提高对比度以提升识别准确性。最后使用tesseract进行文字识别,通过设置白名单提高识别准确率。
摘要由CSDN通过智能技术生成

大众点评评分爬取-图文识别ORC

十一了,没出去玩,因为老婆要加班,我陪着。

晚上的时候她说要一些点评的评分数据,我合计了一下scrapy request一下应该很好做,就答应下来了,感觉没什么难度嘛。

但是呢没那么简单。需要人验证的问题就不说了,我觉得这个我也解决不了,比较吸引我的是他的评分展现方式。

大众点评这块展示用的是图片,css offset方式

7fc2f617cfd598c828204e75e56d2adb.png

a45131a45f9206424ce00d91d92ede12.png

selector那套行不通

这里我使用的 tesseract 图片文字识别

下面是大概流程

爬取页面

这里是使用Selenium进行页面访问,然后截屏

代码片段

opt = Options()

opt.add_argument('--headless')

self.driver = webdriver.Chrome(executable_path='/Users/xiangc/bin/chromedriver', options=opt)

self.wait = Web

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java中进行中文OCR(光学字符识别),你可以使用Tess4J库,它是基于Tesseract OCR引擎的Java封装。下面是一个简单的示例代码,展示了如何使用Tess4J进行中文OCR识别: 首先,确保你已经安装了Java开发环境(JDK)和Tesseract OCR引擎。然后,按照以下步骤进行操作: 1. 导入必要的类和包: ```java import net.sourceforge.tess4j.Tesseract; import net.sourceforge.tess4j.TesseractException; import java.io.File; ``` 2. 创建一个OCR方法: ```java public String performOCR(String imagePath) { File imageFile = new File(imagePath); Tesseract tesseract = new Tesseract(); tesseract.setLanguage("chi_sim"); // 设置语言为简体中文 try { String result = tesseract.doOCR(imageFile); return result; } catch (TesseractException e) { System.err.println(e.getMessage()); return null; } } ``` 3. 在你的主程序中调用OCR方法并打印结果: ```java public static void main(String[] args) { OCR ocr = new OCR(); String imagePath = "path/to/your/image.png"; String result = ocr.performOCR(imagePath); System.out.println("OCR Result: " + result); } ``` 请确保你已经将上述代码中的`path/to/your/image.png`替换为实际的图像文件路径。 这个示例中,我们将语言设置为简体中文(`chi_sim`)。你可以根据需要选择其他语言或添加多种语言的支持。 同时,你需要将Tesseract的语言数据文件下载并配置到正确的目录中。你可以从Tesseract官方GitHub仓库中获取这些文件:https://github.com/tesseract-ocr/tessdata 希望这个示例对你有所帮助!如果你有任何进一步的问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值