Python实现抓取网页信息(一)

最新推荐文章于 2024-08-06 09:49:30 发布

selous

最新推荐文章于 2024-08-06 09:49:30 发布

阅读量4.3k

点赞数 3

分类专栏： python 文章标签： python cookie 爬虫编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/selous/article/details/53353171

版权

写在开头：初次接触Python，翻一翻网上的python文章，都说无论新手和老手都在用python网页爬虫。正好最近网课考试，这种有题库的网课，爬一下题库就在所难免，于是就用了python试一下，于是就准备写这个python网页爬虫初体验

概述
cookie基本知识
beautifulsoup
- 初始化
- 解析
结语

概述

某航教务网络课程，首页需要登录，使用的cookie验证。使用的beautifulsoup4分析数据的包，正则以及网络包默认就有，所以应该要自己安装的就是beautifulsoup4包

cookie基本知识

1.什么是cookie

Cookie 是在 HTTP 协议下，服务器或脚本可以维护客户工作站上信息的一种方式。Cookie 是由 Web 服务器保存在用户浏览器（客户端）上的小文本文件，它可以包含有关用户的信息。无论何时用户链接到服务器，Web 站点都可以访问 Cookie 信息——百度文库

简而言之cookie就是网络上身份认证的一种手段，对于网络上需要登录才能提供的服务，比如博客的个人栏目，都需要使用cookie去维护用户的的登录信息(当然现在用session的也比较多)。

2.cookie的工作过程

1.如果客户端根据网址查找客户端的历史文件，如果有历史的cookies，客户端会取出这个cookie发给服务器进行身份验证。
2.如果没有该cookie，服务器端将会要求客户端登录，在登录成功后在返回的包的头部字段会有set-cookie字段，client取得该cookie之后每次请求网页的时候都会携带这个cookie用于身份验证。
关于cookie字段的详细内容，在实现模拟登陆的过程中没有必要了解。

3.实现模拟登陆

注意模拟登录的网址不是你看到的网址，而是登录表单实际提交的地址，直接网页网页源码，这个很好找的

1.构造头部信息

headers = { 'Host':'hostname',

最低0.47元/天解锁文章

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。