自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 Python爬虫笔记【一】模拟用户访问之webdriver用户登入——第三次(8)

经过post方法之后,因为有动态的value值所以再此回到用webdriver的解决上,但是在下载图片上会打开新打开一个链接,导致与网页图片不同即验证码同步问题,没办法只能想了一个笨法子,网页截图,唉!因为只是验证码问题所以只上获取验证码的代码了,其他的在第六节都有把下载的代码换一下就行。from PIL import Imagefrom selenium import we...

2019-09-24 12:07:00 106

转载 Python爬虫笔记【一】模拟用户访问之提交表单登入—第二次(7)

在第一次登入时遇到这个问题,页面验证码与下载下来需要识别的验证码不同的问题,从网上查寻说是叫验证码同步问题。发现是用cookie解决的,那次cookie介绍到通过cookie就可以实现时间戳同步问题,经过测试发现用同一个cookie打开上次的验证码网页是相同的。登入就是向后台服务器提交一个表单,那么我们就可以将cookie绑定(使验证码的post请求与验证码的请求时间戳相同,来解决验证码...

2019-09-22 14:47:00 106

转载 Python爬虫笔记【一】模拟用户访问之webdriver用户登入——第一次(6)

这时跳转表单,填写账号密码,识别验证码这三项都已经完成,下面就开始模拟登入了(提前说明一下,这次模拟登入是在每张验证码都有固定的url,在下载到本地的验证码需要与打开网页时的验证码相同才行。你可以在网页中找到验证码的src打开两次,如果图片相同那么下面的登入应该就能成功了,如果不同那么下一篇介绍怎么解决)# 网络爬虫 验证码同步问题from selenium import w...

2019-09-22 09:52:00 166

转载 Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练(5)

验证码处理之后就需要对处理的验证码进行识别训练,这里用Tesseract-ocr工具进行识别,用jTessBoxeditor进行训练生成模板。一,对图片进行处理利用上一篇代码对图片进行降噪处理,得到较为清晰地图片。这里需要你在需要登入的网站中提取大量的验证码图片,在获取图片时,查看网站的登入框是否在iframe标签中,已经图片是否有需要点击输入框...

2019-09-21 18:41:00 147

转载 Python爬虫笔记【一】模拟用户访问之验证码清理(4)

清理图片,对图片进行二值化,去边框,去干扰线,去点from PIL import Imagefrom pytesseract import *from fnmatch import fnmatchfrom queue import Queueimport matplotlib.pyplot as pltimport cv2import timeimpo...

2019-09-21 15:36:00 132

转载 Python爬虫笔记【一】模拟用户访问之表单处理(3)

学习的课本为《python网络数据采集》,大部分代码来此此书。  大多数网页表单都是由一些HTML 字段、一个提交按钮、一个在表单处理完之后跳转的“执行结果”(表单属性action 的值)页面构成。虽然这些HTML 字段通常由文字内容构成,但是也可以实现文件上传或其他非文字内容。这些都为抓取数据的阻碍所以放在了前面。废话不多说开搞。  1.HTTP基本接入认证在发明cooki...

2019-09-14 16:14:00 440

转载 Python爬虫笔记【一】模拟用户访问之设置处理cookie(2)

学习的课本为《python网络数据采集》,大部分代码来此此书。  做完请求头的处理,cookie的值也是区分用户和机器的一个方式。所以也要处理一下cookie,需要用requests模块,废话不多说开搞。  1.一般情况下python修改cookie首先获得cookieimport requestsparams = {'username': 'Ryan', '...

2019-09-14 11:10:00 128

转载 Python爬虫笔记【一】模拟用户访问之设置请求头 (1)

学习的课本为《python网络数据采集》,大部分代码来此此书。  网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行。所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人一样访问网页。废话不多说开始伪装。  1.修改请求头  这里要用到python的requests的模块,首相介绍一下http请求头,它就是你每次在访问网页时,向服务器传输的一组属性和配置信...

2019-09-14 09:50:00 591

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除