python使用selenium和tesseract来爬取电影评分

最新推荐文章于 2023-05-30 15:12:06 发布

非洲蓝精灵

最新推荐文章于 2023-05-30 15:12:06 发布

阅读量378

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_43481616/article/details/105981717

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

python使用selenium和tesseract来获取电影评分

总目录

使用python来爬取网页信息经常遇到反爬，对于一些加密的信息更是难搞，下载.woff之类的文件再解码对于菜鸡来说有点难，而且代码量太大。
相对而言使用OCR（文字识别）比较方便，个人感觉不好的就是需要把图片给截取下来有点占地方，所以如果只是截取少量的话这个还是很不错的。

工具需求

python3.7
tesseract
chromedriver

第三方库：
selenium pytesseract time PIL

爬取原理

使用selenium的webdriver来定位评分所在的元素，使用PIL的截屏来获取评分的图片，再通过pytesseract来识别图片文字，进行输出。

安装第三方库

第三方库安装命令
pip install selenium
pip install time
pip install PIL
pip install pytesseract
（关于selenium和tesseract的安装使用请另行百度，或者哪天我有时间了写一下也行，嘿嘿嘿）

上代码

# 导入模拟浏览器界面的selenium模块库
from selenium import webdriver
# 导入时间库模块
from time import sleep
from PIL import Image
import pytesseract

#设置要爬取的网址
url = 'https://movie.douban.com/subject/26087750/'
#有些网站反爬比较厉害，如果需要可自行设置，这个不一定有用
'''
options = webdriver.ChromeOptions()
options.add_argument('--kiosk')
driver = webdriver.Chrome(chrome_options=options)
'''
#打开Chrome进行截取
driver = webdriver.Chrome()
driver.get(url)
#定位元素
pingfen = driver.find_element_by_xpath('//strong[@class="ll rating_num"]')
#截取
pingfen.screenshot('kuiba.png')
sleep(5)
driver.quit()
#使用tesseract进行文字识别
text=pytesseract.image_to_string(Image.open('kuiba.png'))
print(text)

结果图

定位评分所在的元素：

定位元素
经过文字识别后得出的结果：

在这里插入图片描述
（《魁拔》是真的不错，安利一波）

写在最后

第一次写博客，代码自己跑是没有问题的，写的不好了也欢迎在下面指出并帮忙改正，菜鸡一枚，嘿嘿嘿

非洲蓝精灵

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python使用selenium和tesseract来爬取电影评分

python使用selenium和tesseract来获取电影评分总目录工具需求爬取原理安装第三方库上代码插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入总目录你好！这是你第...
复制链接

扫一扫