爬虫——手动登陆一次，使用cookie信息进行信息爬取

最新推荐文章于 2024-07-20 09:47:39 发布

Edifier12

最新推荐文章于 2024-07-20 09:47:39 发布

阅读量2.3k

点赞数

分类专栏：网络爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/Edifier12/article/details/81676208

版权

本文介绍如何通过手动登录获取Cookie，并利用Cookie进行信息爬取。首先，使用爬虫脚本针对百度翻译页面进行GET和POST请求的封装，接着调用封装好的函数进行实际的爬取操作。

摘要由CSDN通过智能技术生成

1、首先使用爬虫脚本对百度翻译进行网页爬取，定义函数对get和post两种请求方式进行封装

from urllib import request, parse
from urllib.error import HTTPError, URLError


#定义get请求函数
def get(url,headers=None):
    return urlrequests(url,headers=headers)

#定义post请求函数
def post(url,form,headers=None):
    return urlrequests(url,form,headers=headers)


#爬虫封装函数
def urlrequests(url,form=None,headers=None):
    #模拟浏览器
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

    if headers == None:
        headers = {'User-Agent':user_agent}
    #定义为byte（字节流类型）
    html_bytes = b''
    try:
        if form:
            #POST请求方式
            #（1）：转换成str格式
            #将其序列化为get请求参数
            form_str = parse.urlencode(form)
            #（2）：转换成bytes类型
            form_bytes = form_str.encode('u