复习爬虫

最新推荐文章于 2024-06-10 22:18:41 发布

大呼啦

最新推荐文章于 2024-06-10 22:18:41 发布

阅读量196

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/hhshh1234/article/details/107330821

版权

刚刚经过期末考试，之前学期内学过的Python爬虫基础知识有些遗忘，今天来复习一下爬虫。
步骤：
1.请求行与请求头
我所接触到的就是Request Headrs,当然，这个在最基础的爬虫中用不到，但是在以后随着爬虫技术的加深，应该会用到的。
User-Agent（用户代理）：对方服务器通过user-agent知道请求对方资源的是什么浏览器，或者说是不是浏览器，通过chrome可以模仿（模拟）手机版的网页浏览，模仿时候，user-agent是改成手机版的。
Accept：告诉服务端，我想接受什么数据
Accept-Encoding：告诉服务端我可以接受什么编码方式的数据。
Accept-Language：告诉服务端我们希望接受什么语言的数据。
Cookie：用来存储用户信息的，每次请求都会被带上发送给对方的浏览器。要获取登陆后才能访问的页面的内容。对方的服务器会通过cookie来判断爬虫。

2.requests模块
首先requests模块是一个第三方模块，需要自己安装。
requests的使用，那么使用第三方模块时，需要导包，在首行加入import requs。
response1 = requests.get(url)
response2 = requests.post(url,data = {请求体的字典})
这便是发起网络请求，其中url是你给想要爬取网页的网址，如
url = ‘https://www.baidu.com/’，这便是向百度发起网络请求。

3.response的方法
1.response.content.decode()此方法是把响应的二进制字节流转化为字符串类型
2.response.text该方法获取网页内容时往往会出现乱码，所以要在此前加上一个response.encoding = “utf-8”
3.response.request.url获取发送请求的url地址
4.response.url获取响应的url地址
5.response.request.headers请求头
6.response.headers响应头

特别需要注意的是由于爬虫的网站的编码是汉字，不是纯英文，所以要在开头写上“# coding=utf-8”

其实最基础的爬虫知识并没有多复杂，只是需要在细节的地方做出一些处理，如果没有格式要求的话那就变得更简单了，复习了爬虫最基础的知识后，便开始进行实战了，加油！

大呼啦

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复习爬虫

刚刚经过期末考试，之前学期内学过的Python爬虫基础知识有些遗忘，今天来复习一下爬虫。步骤：1.请求行与请求头我所接触到的就是Request Headrs,当然，这个在最基础的爬虫中用不到，但是在以后随着爬虫技术的加深，应该会用到的。User-Agent（用户代理）：对方服务器通过user-agent知道请求对方资源的是什么浏览器，或者说是不是浏览器，通过chrome可以模仿（模拟）手机版的网页浏览，模仿时候，user-agent是改成手机版的。Accept：告诉服务端，我想接受什么数据Acc
复制链接

扫一扫