大众点评评分爬取-图文识别ORC
十一了,没出去玩,因为老婆要加班,我陪着。
晚上的时候她说要一些点评的评分数据,我合计了一下scrapy request一下应该很好做,就答应下来了,感觉没什么难度嘛。
但是呢没那么简单。需要人验证的问题就不说了,我觉得这个我也解决不了,比较吸引我的是他的评分展现方式。
大众点评这块展示用的是图片,css offset方式
selector那套行不通
这里我使用的 tesseract 图片文字识别
下面是大概流程
爬取页面
这里是使用Selenium进行页面访问,然后截屏
代码片段
opt = Options()
opt.add_argument('--headless')
self.driver = webdriver.Chrome(executable_path='/Users/xiangc/bin/chromedriver', options=opt)
self.wait = Web