Python爬虫实现--微博模拟登陆--涉及到的知识点，python包，实现代码详解。

最新推荐文章于 2024-08-04 13:55:04 发布

皮卡猪猪

最新推荐文章于 2024-08-04 13:55:04 发布

阅读量993

点赞数 1

分类专栏：爬虫文章标签： python 爬虫 urllib

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40589051/article/details/98368420

版权

之前写过一篇关于爬虫的文章，其中提到了用python requests包请求网页，并用beautifulsoup解析。

https://blog.csdn.net/qq_40589051/article/details/90579064

当时那篇文章中的网页都是不需要登陆的，而且由于赶项目所以学的那叫一个囫囵吞枣。请求，协议之类的知识点都没有怎么搞清楚，后来我发现网上的大佬们对于模拟登陆的方法颇有心得，所以我最近小小的研究了一下下。自己平时也很少研究爬虫，所以有什么错请多多包涵~

这篇文章着重介绍的是如何模拟登陆微博，所以解析网页源代码的代码就没有放上来啦。

-------------------目录---------------------

1.cookie和headers，究竟是什么？如何查看？谜一样的HTTP协议！

2.微博爬虫的三种实现方法（理论）

3.微博模拟登陆实现代码详解（实战）

4 http协议中post和get请求的不同

5 python各种爬虫包大起底！urllib、urllib2、requests。

包教包会诶~~~童叟无欺！

正文：

1.cookie和headers，究竟是什么？如何查看？谜一样的HTTP协议

我还是个学通信的.....今天打死都想不起这些知识点，简直惭愧......

我们在做爬虫的时候，其实是在模拟浏览器（用户）的行为，去爬取所需要的信息。

简单来说，爬虫得模拟我们正常使用浏览器进网站的过程，首先是给网站一个请求，网站接受到请求之后，会发回一个响应。

这个请求和响应要按照一定的格式来构建，格式乱七八糟的当然不行，所以为了方便大家上网，专门为访问万维网所设置的HTTP协议诞生啦！

HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议，其基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后，向客户端发送响应信息。

HTTP协议请求消息有四个部分：请求行（request line）、请求头部（header）、空行和请求数据。

这里就不细讲了，主要将爬虫需要用到的headers。

headers（请求头部）就是HTTP请求和响应的核心部分，它记录了客户端浏览器、请求页面、服务器等相关信息。在写爬虫的过程中，获得headers的信息是非常重要的！

我使用的是谷歌浏览器，打开一个页面，按下f12，进入network，随便在name下点击一个动态，你就可以看见响应和请求的heders了。这个user-agent就是爬虫所需要的模拟浏览器的必要伪装之一。User-Agent会告诉网站服务器，访问者是通过什么工具来请求的，如果是爬虫请求，一般会拒绝，如果是用户浏览器，就会应答。所以我们的程序里面得使用这个来表明自己不是爬虫。

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫实现--微博模拟登陆--涉及到的知识点，python包，实现代码详解。

之前写过一篇关于爬虫的文章，其中提到了用python requests包请求网页，并用beautifulsoup解析。https://blog.csdn.net/qq_40589051/article/details/90579064当时那篇文章中的网页都是不需要登陆的，而且由于赶项目所以学的那叫一个囫囵吞枣。请求，协议之类的知识点都没有怎么搞清楚，后来我发现网上的大佬们对于模拟登陆的方法...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。