轻便爬虫+OCR 第二部分

本文介绍了使用Python进行网页爬虫,抓取图片,并利用OCR技术进行图像文字识别的过程。通过request库获取网页源码,正则表达式匹配图片链接,下载图片。然后使用百度AI的OCR服务进行文字识别,实现自动化截图和文字提取。文章提到,虽然遇到一些挑战,如代理池和反爬策略,但最终找到了解决方案。作者计划在未来整理并分享源码。
摘要由CSDN通过智能技术生成

新年快乐,武汉加油

第三步:爬虫

爬虫的思路:通过提供的网址,爬下网址源码,接着于源码中遍历,找寻所有的图片并下载。

爬下源码

运用request库相关函数:

	#爬下源码
	def pachong(self):	
	    # params 接收一个字典或者字符串的查询参数,字典类型自动转换为url编码,不需要urlencode()
        #params = kw,
        response = requests.get(self.URL, headers=gHeads)
        #
        # # 查看响应内容,response.text 返回的是Unicode格式的数据 返回是网页数据
        # #print(response.text)
        #
        # # 查看响应内容,response.content返回的字节流数据
        # #print(response.content)
        #self.txt = response.content.decode("utf-8")
        self.bianma = response.encoding
        self.txt = response.content.decode("%s" %response.encoding)
        self.txt = self.txt.encode('GBK','ignore').decode('GBK')
        print(response.content.decode("%s" %response.encoding))
        # # # 查看完整url地址:贴吧被替换后的URL
        # #print(response.url)
        # # # 查看响应头部字符编码 :utf-8
        #print(response.encoding)
        # # # 查看响应码
        # #print(response.status_code)

	#储存到指定的txt
	def lay(self):
        #print (self.txt)
        file = open(self.LAY_way,mode='w')
        file.write(self.txt)
        file.close()
        messagebox.askokcancel('消息框', '储存成功了')

这是某个博客的源码,需要注意的是:text返回的是unicode格式的数据,若要写入txt中需要改变格式,同时忽略一部分歧义字符,否则报错。

遍历源码、下载图片

遍历爬下的源码,找寻图片的链接,利用re库书写正确的正则表达式进行匹配。
于网页的开发者模式下可以看到网址源码,或者通过上个步骤储存的txt,ctrl+f搜索src便可看到:
在这里插入图片描述
点开src后的链接,于浏览器上发现可以正常使用,说明这是我们要爬下的图片之一。

	#下载图片
    def download_photo(self):
        reg = r'src="(.+?\.jpg)"'
        reg_img = re.compile(reg)
        imglist = reg_img.findall(self.txt)
        i = 0
        for img in imglist:
            print(img)
            i += 1
            urlretrieve(str(img),'./image/%s.png' %i)

urlretrieve函数用于下载,跟随参数是链接与名称。
短时间内多次访问下图可能会因反爬手段被禁止反问,构建自己的代理池,请求头是一个不错的方法。此外,每个网站储存图片的方式并不一样,该手段仅能爬取一下小网站的图片,个人感觉得到新鲜感是最棒的收获。

第四步 OCR

做图像文字识别,一是自己动手写,二是利用现成的百度AI的OCR技术,本小白不加多想便选择了后者。
首先登陆百度AI :https://ai.baidu.com/
在这里插入图片描述
进入应用界面,创建应用
在这里插入图片描述
文字识别是默认勾选的,创建完后,需要保存APP_ID 、API_Key 、Secret_Key,于pycharm导入AipOcr。

APP_ID = 'xxxx'
API_Key = 'xxxx'
Secret_Key = 'xxxx'
client = AipOcr(APP_ID,API_Key,Secret_Key)

配置完毕后,与百度AI的链接的前提便做好了。

做截图配置的时候,本着越简便越好,初始思路便是,鼠标摁下时记录坐标,拖动弹起时记录坐标,划定区域后截图再上传辨识。可惜pywin32一直装载失败,无奈另觅它路。翻阅一篇CSDN博客时,它介绍了一个很好的方法,利用snipaste截图,同时利用keyboard库监听按键,再将截下的图从粘贴板上取下上传,确实合理。

	#截取图片
	def before_cut_photo(self):
        keyboard.wait(hotkey='f1')
        keyboard.wait(hotkey='ctrl+c')
        time.sleep(0.1)
        image = ImageGrab.grabclipboard()
        image.save('./result_of_photo.png')
        a = './result_of_photo.png'
        self.image2text(a)
        
	#识别图像
    def image2text(self,fileName):
        #fileName = './background/2.png'
        with open(fileName, 'rb') as fp:
            image = fp.read()
        dic_result = client.basicGeneral(image)
        res = dic_result['words_result']
        result = ''
        for m in res:
            result = result + str(m['words'])
        print(result)
        file = open('./result_of_photo.txt',mode='w')
        file.write(result)
        file.close()
        messagebox.askokcancel('消息框', '储存入result_of_photo中')
        messagebox.askokcancel('识别文本', '%s' %result)
        top = tk.Toplevel()
        top.title('识别文本')
        msg = tk.Text(top)
        msg.pack()
        msg.insert(tk.INSERT,'%s'%result)

最后于子窗口弹出可复制的信息框。
小白为了做毕设的时候能够更加简便快捷,所以闲暇时间鼓捣了一番,源码比较凌乱,往后有时间我会整理一下分享出来。
新的一年,祝大家事事顺利,开心快乐,武汉加油。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值