python爬虫免登录_爬虫使用cookie免登陆

本文介绍了如何使用Python爬虫在没有登录的情况下,通过Cookie获取登陆后的网页内容。讨论了BeautifulSoup、Requests库的作用,并分享了在处理网页编码、设置Cookie、模拟浏览器Header以及正则表达式匹配时遇到的问题和解决方案。强调了解决问题的步骤和避免时间浪费的重要性。
摘要由CSDN通过智能技术生成

由于前程无忧上岗位投递记录只保留两个月,想记录下。

由于之前写过一个爬工作岗位的爬虫,所以这次我就拿之前的代码,改了下,发现爬不到东西。一番折腾后,发现。爬虫下载网页,获取登陆是不会记住你浏览器的登陆状态的,就相当于,在一个新的,从未登陆过该网站的浏览器上下载页面,而我需要的页面是登陆后的页面。

程序代码放在Github

对于怎么获取登陆后的页面,有两种思路使用账号,密码登陆,如果该网站登陆系统简单的话,没有验证码啥的,有验证码的话,可以使用图形识别库

使用cookie绕过登陆页面cookie:

Cookie(复数形态Cookies),中文名称为“小型文本文件”或“小甜饼”[1],指某些网站为了辨别用户身份而储存在用户本地终端(Client Side)上的数据(通常经过加密)。定义于RFC2109。是网景公司的前雇员卢·蒙特利在1993年3月的发明[2]。

因为HTTP协议是无状态的,即服务器不知道用户上一次做了什么,这严重阻碍了交互式Web应用程序的实现。在典型的网上购物场景中,用户浏览了几个页面,买了一盒饼干和两瓶饮料。最后结帐时,由于HTTP的无状态性,不通过额外的手段,服务器并不知道用户到底买了什么,所以Cookie就是用来绕开HTTP的无状态性的“额外手段”之一。服务器可以设置或读取Cookies中包含信息,借此维护用户跟服务器会话中的状态。

by wikipedia

我打算写的是小工具,为了方便起见直接用使用cookie的方式。

期间遇到的坑解析网页

在写程序的过程中,关于BeautifulSoup, requests,urlopen几个的作用有点糊涂,在这遍整理下

BeautifulSoup官方解释Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>