初识爬虫

最新推荐文章于 2023-04-03 18:35:39 发布

1152：从入门到脱发

最新推荐文章于 2023-04-03 18:35:39 发布

阅读量115

点赞数

本文链接：https://blog.csdn.net/spike1988zc/article/details/108686870

版权

文章目录

一、初识爬虫

一、初识爬虫

1.HTTP和HTTPS

HTTP
- 超文本传输协议
- 默认端口号：80
HTTPS
- HTTP+SSL(安全套接字层)
- 默认端口号：443

HTTPS比HTTP更安全，但是性能更低。

2.爬虫的概念

爬虫是模拟浏览器发送请求，获取相应。

3.爬虫的流程

url–>发送请求，获取相应–>提取数据–>保存
发送请求，获取相应–>提取url

4.URL格式和http请求格式

scheme：协议（例如：http,https,ftp）

host：服务器的IP地址或者域名

port：服务器的端口（如果是协议默认端口，80 or 443）

path：访问资源的路径

query-string：参数，发送http服务的数据

anchor：锚（跳转到网页的指定锚点位置）

http://localhost:4000/file/part01/1.2.html

http://item.jd.com/11936238.html#product-detail

5.HTTP常见请求头

1.Host(主机和端口号)

2.Connection(链接类型)

3.Upgrade-Insecure-Requests(升级为HTTPS请求)

4.User-Agent(浏览器名称)

5.Acceot(传输文件类型)

6.Referer(页面跳转处)

7.Accept-Encoding(文件编解码格式)

8.x-requested-with:XMLHttpRequest(是Ajax异步请求)

6.的请求方法

get：向某个地方获取一些数据，这个获取的过程可以理解为一个简单的查询
post：一般都是表单提交，可以在body里面携带数据。

7.常见相应状态码（status code）

200：成功
302：临时转移至新的url
307：临时转移至新的url
404：not found
500：服务器内部错误

8.爬虫的定义

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接受请求相应，一种按照一定的规则，自动地抓取互联网信息地程序。

只要是浏览器能做的事情，原则上，爬虫都能够做。

9.ROBOTS协议

Robots协议：网站通过Robots协议告诉搜索引擎那些页面可以抓取，那些页面不能抓取

例如：https://www.taobao.com/robots.txt

其他

爬虫要根据当前url地址对应的相应为准，当前url地址的elements的内容和url的响应不一样

页面上的数据在哪里

当前url地址对应的响应中
其他url地址对应的响应中
- 比如ajax请求中
js生成的
- 部分数据在响应中
- 全部通过js生成

1152：从入门到脱发

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初识爬虫

文章目录一、初识爬虫1.HTTP和HTTPS2.爬虫的概念3.爬虫的流程4.URL格式和http请求格式5.HTTP常见请求头6.的请求方法7.常见相应状态码（status code）8.爬虫的定义9.ROBOTS协议其他爬虫要根据当前url地址对应的相应为准，当前url地址的elements的内容和url的响应不一样页面上的数据在哪里一、初识爬虫1.HTTP和HTTPSHTTP超文本传输协议默认端口号：80HTTPSHTTP+SSL(安全套接字层)默认端口号：443HTT
复制链接

扫一扫