前言
今天来教大家如何爬取知乎网站,最近到底有哪些有意思的事情发生呢?
不过爬取网站首先会面临的问题,当然是登陆了。
准备
-
使用requests包来爬取。首先尝试用用户名密码自动登陆,如果失败,则需要采用cookie登陆。
-
配置文件config.ini,其中包括用户名密码信息,如果有验证码情况,需要手动登陆一次网站获取cookie信息。
-
判断登陆成功与否,看生成的html文件中有没有用户信息。
代码实现
# -*- coding: utf-8 -*-
import requests
import ConfigParser
def create_session():
cf = ConfigParser.ConfigParser()
cf.read('config.ini')
cookies = cf.items('cookies')
cookies = dict(cookies)
from pprint import pprint
pprint(cookies)
email = cf.get('info', 'email')
password = cf.get('info', 'password')
session = requests.session()
login_data = {'email': em