Python爬虫实现--微博模拟登陆--涉及到的知识点,python包,实现代码详解。

之前写过一篇关于爬虫的文章,其中提到了用python requests包请求网页,并用beautifulsoup解析。

https://blog.csdn.net/qq_40589051/article/details/90579064

当时那篇文章中的网页都是不需要登陆的,而且由于赶项目所以学的那叫一个囫囵吞枣。请求,协议之类的知识点都没有怎么搞清楚,后来我发现网上的大佬们对于模拟登陆的方法颇有心得,所以我最近小小的研究了一下下。自己平时也很少研究爬虫,所以有什么错请多多包涵~

这篇文章着重介绍的是如何模拟登陆微博,所以解析网页源代码的代码就没有放上来啦。

-------------------目录---------------------

1.cookie和headers,究竟是什么?如何查看?谜一样的HTTP协议!

2.微博爬虫的三种实现方法(理论)

3.微博模拟登陆实现代码详解(实战)

4 http协议中post和get请求的不同

5 python各种爬虫包大起底!urllib、urllib2、requests。

包教包会诶~~~童叟无欺!

正文:

1.cookie和headers,究竟是什么?如何查看?谜一样的HTTP协议

我还是个学通信的.....今天打死都想不起这些知识点,简直惭愧......

我们在做爬虫的时候,其实是在模拟浏览器(用户)的行为,去爬取所需要的信息。

简单来说,爬虫得模拟我们正常使用浏览器进网站的过程,首先是给网站一个请求,网站接受到请求之后,会发回一个响应。

这个请求和响应要按照一定的格式来构建,格式乱七八糟的当然不行,所以为了方便大家上网,专门为访问万维网所设置的HTTP协议诞生啦!

HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议,其基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息。

HTTP协议请求消息有四个部分:请求行(request line)、请求头部(header)、空行和请求数据。

这里就不细讲了,主要将爬虫需要用到的headers。

headers(请求头部)就是HTTP请求和响应的核心部分,它记录了客户端浏览器、请求页面、服务器等相关信息。在写爬虫的过程中,获得headers的信息是非常重要的!

我使用的是谷歌浏览器,打开一个页面,按下f12,进入network,随便在name下点击一个动态,你就可以看见响应和请求的heders了。这个user-agent就是爬虫所需要的模拟浏览器的必要伪装之一。User-Agent会告诉网站服务器,访问者是通过什么工具来请求的,如果是爬虫请求,一般会拒绝,如果是用户浏览器,就会应答。所以我们的程序里面得使用这个来表明自己不是爬虫。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值