网络爬虫之用户名密码及验证码登陆：爬取知乎网站

老贡讲Python

于 2022-01-05 20:01:54 发布

阅读量5k

点赞数

分类专栏： Python爬虫及项目文章标签：爬虫 python json

本文链接：https://blog.csdn.net/python4857/article/details/122330766

版权

本文介绍如何使用Python爬虫爬取知乎网站，通过requests包进行登录操作。首先，尝试使用配置文件中的用户名和密码自动登录，若失败则依赖cookie。文章详细讲解了登录过程，并提示登录成功标志是生成的HTML文件包含用户信息。

摘要由CSDN通过智能技术生成

前言

今天来教大家如何爬取知乎网站，最近到底有哪些有意思的事情发生呢？

不过爬取网站首先会面临的问题，当然是登陆了。

准备

使用requests包来爬取。首先尝试用用户名密码自动登陆，如果失败，则需要采用cookie登陆。
配置文件config.ini，其中包括用户名密码信息，如果有验证码情况，需要手动登陆一次网站获取cookie信息。
判断登陆成功与否，看生成的html文件中有没有用户信息。

代码实现

# -*- coding: utf-8 -*-

import requests
import ConfigParser

def create_session():
    cf = ConfigParser.ConfigParser()
    cf.read('config.ini')
    cookies = cf.items('cookies')
    cookies = dict(cookies)
    from pprint import pprint
    pprint(cookies)
    email = cf.get('info', 'email')
    password = cf.get('info', 'password')

    session = requests.session()
    login_data = {'email': em