1、关于爬虫的基础知识

最新推荐文章于 2024-03-21 22:32:10 发布

white_run

最新推荐文章于 2024-03-21 22:32:10 发布

阅读量130

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_49523596/article/details/108869880

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、打开网页，按下F12进入控制台，点击clear清空所有记录，然后再搜索栏输入百度回车

二、一个完整的请求包含哪些内容

a、请求方式，一般可分为post、get

b、请求头，里面含有Cookie 、User-Agent等重要信息

Cookie指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据。

c、请求体

d、响应，包含三部分：响应状态码、响应头、响应体

三、网页爬虫

1、调用python中的urllib、requests等模块能帮我们实现该功能。 ------获取完整的网页信息

2、使用正则表达式选取我们想要提取的数据，网页接口规则包括：网页节点属性、CSS选择器或XPath来提取网页信息的库，如Beautiful Soup、pyquery、lxml等。 ------获取想要的数据信息

3、我们保存数据为HTML格式时，现在的网页大部分采用的都是Ajax、前端模块化工具来构建的，可能整个网页都是由JavaScript渲染的，HTML代码就相当于是一个空壳。使用游览器打开时，游览器会引入app.js文件，这个文件执行JavaScript代码，而JavaScript会改变HTML中的节点，向其添加内容，最后得到完整的页面。如果不使用游览器的话我们可以分析后台Ajax接口，也可使用Selenium、Splash来实现JavaScript的渲染。 ------保存数据

四、使用代理进行爬虫

如果我们使用内网进行爬虫的话，同一个IP访问太过频繁，网络就会封锁我们的IP，我们可以使用代理来隐藏我们的IP，开启代理时，网页里面直接搜索IP就能看到我们使用到公网IP地址。这样的爬虫过程中通过不断更换代理，这样才能防止反爬虫，才能达到爬虫效果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1、关于爬虫的基础知识

一、打开网页，按下F12进入控制台，点击clear清空所有记录，然后再搜索栏输入百度回车二、一个完整的请求包含哪些内容a、请求方式，一般可分为post、getb、请求头，里面含有Cookie 、User-Agent等重要信息Cookie指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据。c、请求体d、响应，包含三部分：响应状态码、响应头、响应体三、网页爬虫1、调用python中的urllib、requests等模块能帮我们实现该功能。 ----...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。