Python爬虫之自动登录与验证码识别

最新推荐文章于 2024-07-31 17:39:14 发布

liuwons

最新推荐文章于 2024-07-31 17:39:14 发布

阅读量5.5w

点赞数 11

分类专栏： python 文章标签： python 爬虫验证码识别

本文链接：https://blog.csdn.net/tobacco5648/article/details/50640691

版权

本文介绍了如何在Python爬虫中处理需要登录的网站，通过requests库发送登录请求并利用Session管理Cookie。针对验证码，文章提到了简单验证码可用pytesser识别，复杂验证码则需要训练分类器。以CSDN登录为例，展示了使用requests和pytesser实现登录的代码过程，pytesser在CSDN验证码识别上表现良好。

摘要由CSDN通过智能技术生成

Python爬虫之自动登录与验证码识别

在用爬虫爬取网站数据时，有些站点的一些关键数据的获取需要使用账号登录，这里可以使用requests发送登录请求，并用Session对象来自动处理相关Cookie。

另外在登录时，有些网站有时会要求输入验证码，比较简单的验证码可以直接用pytesser来识别，复杂的验证码可以依据相应的特征自己采集数据训练分类器。

以CSDN网站的登录为例，这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码，函数会首先下载验证码到本地，然后用pytesser识别验证码后登录，对于CSDN登录验证码，pytesser的识别率很高。

其中的pytesser的下载地址为: pytesser下载

具体代码如下：

#coding:utf-8
import sys
import time
import urllib
import shutil
import pytesser
import requests

from lxml import etree

config = {
  'gid': 1}

def parse(s, html, idx):
    result = {}

    tree = etree.HTML(html)
    try:
        result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]
        result['execution'] = tree.xpath('//input[@name="