识别广西人才网联系电话

这段代码演示了如何使用Python的requests库爬取网页,并通过lxml解析HTML找到电话号码的图片源。接着,利用百度OCR API进行图像识别,将识别出的电话号码打印出来。整个过程涉及网页抓取、图像下载和文字识别技术。
摘要由CSDN通过智能技术生成

在这里插入图片描述

在这里插入图片描述

import requests
import re
from fontTools.ttLib import TTFont
from lxml import etree
from aip import AipOcr  #pip install baidu-aip
url = "https://www.gxrc.com/jobDetail/d2f81ae03d34449396cb9e33dd7fe188"
response = requests.get(url=url)
response.encoding = 'utf-8'
html_data = response.text
selector = etree.HTML(html_data) 
x1='//*[@id="jobDetail"]/div[2]/div[1]/div[1]/div[5]/div[2]/p[2]/label/img/@src' #联系电话
src_url="https:"+selector.xpath(x1)[0]
print(src_url)
r=requests.get(src_url)
i=0
with open('D:/zhusc/ps/{}.jpg'.format(str(i)),'wb') as f:
    f.write(r.content)
#定义常量
APP_ID = '个人隐私'
API_KEY = '个人隐私'
SECRET_KEY = '个人隐私'
# 初始化AipFace对象
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
# 读取图片
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()
image = get_file_content('D:/zhusc/ps/{}.jpg'.format(str(i)))
res = client.basicAccurate(image)  
try:
    print(res['words_result'][0]['words']) #输出识别结果
except:
    print("联系电话不存在")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值