dayou8948-CSDN博客

转载 Python爬虫笔记【一】模拟用户访问之webdriver用户登入——第三次（8）

经过post方法之后，因为有动态的value值所以再此回到用webdriver的解决上，但是在下载图片上会打开新打开一个链接，导致与网页图片不同即验证码同步问题，没办法只能想了一个笨法子，网页截图，唉！因为只是验证码问题所以只上获取验证码的代码了，其他的在第六节都有把下载的代码换一下就行。from PIL import Imagefrom selenium import we...

2019-09-24 12:07:00 106

转载 Python爬虫笔记【一】模拟用户访问之提交表单登入—第二次（7）

在第一次登入时遇到这个问题，页面验证码与下载下来需要识别的验证码不同的问题，从网上查寻说是叫验证码同步问题。发现是用cookie解决的，那次cookie介绍到通过cookie就可以实现时间戳同步问题，经过测试发现用同一个cookie打开上次的验证码网页是相同的。登入就是向后台服务器提交一个表单，那么我们就可以将cookie绑定（使验证码的post请求与验证码的请求时间戳相同，来解决验证码...

2019-09-22 14:47:00 106

转载 Python爬虫笔记【一】模拟用户访问之webdriver用户登入——第一次（6）

这时跳转表单，填写账号密码，识别验证码这三项都已经完成，下面就开始模拟登入了（提前说明一下，这次模拟登入是在每张验证码都有固定的url，在下载到本地的验证码需要与打开网页时的验证码相同才行。你可以在网页中找到验证码的src打开两次，如果图片相同那么下面的登入应该就能成功了，如果不同那么下一篇介绍怎么解决）# 网络爬虫验证码同步问题from selenium import w...

2019-09-22 09:52:00 166

转载 Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练（5）

验证码处理之后就需要对处理的验证码进行识别训练，这里用Tesseract-ocr工具进行识别，用jTessBoxeditor进行训练生成模板。一，对图片进行处理利用上一篇代码对图片进行降噪处理，得到较为清晰地图片。这里需要你在需要登入的网站中提取大量的验证码图片，在获取图片时，查看网站的登入框是否在iframe标签中，已经图片是否有需要点击输入框...

2019-09-21 18:41:00 147

转载 Python爬虫笔记【一】模拟用户访问之验证码清理（4）

清理图片，对图片进行二值化，去边框，去干扰线，去点from PIL import Imagefrom pytesseract import *from fnmatch import fnmatchfrom queue import Queueimport matplotlib.pyplot as pltimport cv2import timeimpo...

2019-09-21 15:36:00 132

转载 Python爬虫笔记【一】模拟用户访问之表单处理（3）

学习的课本为《python网络数据采集》，大部分代码来此此书。　　大多数网页表单都是由一些HTML 字段、一个提交按钮、一个在表单处理完之后跳转的“执行结果”（表单属性action 的值）页面构成。虽然这些HTML 字段通常由文字内容构成，但是也可以实现文件上传或其他非文字内容。这些都为抓取数据的阻碍所以放在了前面。废话不多说开搞。　　1.HTTP基本接入认证在发明cooki...

2019-09-14 16:14:00 440

转载 Python爬虫笔记【一】模拟用户访问之设置处理cookie（2）

学习的课本为《python网络数据采集》，大部分代码来此此书。　　做完请求头的处理，cookie的值也是区分用户和机器的一个方式。所以也要处理一下cookie，需要用requests模块，废话不多说开搞。　　1.一般情况下python修改cookie首先获得cookieimport requestsparams = {'username': 'Ryan', '...

2019-09-14 11:10:00 128

转载 Python爬虫笔记【一】模拟用户访问之设置请求头（1）

学习的课本为《python网络数据采集》，大部分代码来此此书。　　网络爬虫爬取数据首先就是要有爬取的权限，没有爬取的权限再好的代码也不能运行。所以首先要伪装自己的爬虫，让爬虫不像爬虫而是像人一样访问网页。废话不多说开始伪装。　　1.修改请求头　　这里要用到python的requests的模块，首相介绍一下http请求头，它就是你每次在访问网页时，向服务器传输的一组属性和配置信...

2019-09-14 09:50:00 591

dayou8948的博客