爬虫之基础（自用）

最新推荐文章于 2024-05-02 16:08:35 发布

?sterben

最新推荐文章于 2024-05-02 16:08:35 发布

阅读量76

点赞数

分类专栏：笔记文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45906102/article/details/107316583

版权

笔记专栏收录该内容

64 篇文章 0 订阅

订阅专栏

爬虫分类

通用网络爬虫：像百度，
聚焦网络爬虫：针对特定的主题抓取，像我们自己写的
增量式网络爬虫：只爬取新产生的或发生变化的网页
深层网络爬虫:只有用户提交一些关键词才能获得的web页面例如用户登录注册才能访问的页面

get和post

get:查询参数都会在URL上显示出来
post:查询参数和需要提交数据是隐藏在Form表单里的,不会在URL地址上显示出来

User-Agent 用户代理

可用作反爬
作用:记录用户的浏览器、操作系统等,为了让用户更好的获取HTML页面效果

Refer

表明当前这个请求是从哪个url过来的。一般情况下可以用来做反爬的技术##

状态码

200：请求成功
301：永久重定向
302：临时重定向
403：服务器拒绝请求
404请求失败(服务器无法根据客户端的请求找到资源（网页）)
500：服务器内部请求

抓包工具

Elements：网页源代码，提取数据和分析数据(有些数据是经过特殊处理的所以并不是都是准确的)
Console：控制台 (打印信息)
Sources：信息来源 (整个网站加载的文件)
NetWork : 网络工作(信息抓包) 能够看到很多的网页请求

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫之基础（自用）

爬虫分类通用网络爬虫：像百度，聚焦网络爬虫：针对特定的主题抓取，像我们自己写的增量式网络爬虫：只爬取新产生的或发生变化的网页深层网络爬虫:只有用户提交一些关键词才能获得的web页面例如用户登录注册才能访问的页面get和postget:查询参数都会在URL上显示出来post:查询参数和需要提交数据是隐藏在Form表单里的,不会在URL地址上显示出来User-Agent 用户代理可用作反爬作用:记录用户的浏览器、操作系统等,为了让用户更好的获取HTML页面效果Refer
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。