爬虫学习01

最新推荐文章于 2024-07-16 08:56:46 发布

@从心

最新推荐文章于 2024-07-16 08:56:46 发布

阅读量119

点赞数

分类专栏：爬虫文章标签：爬虫 python 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45786520/article/details/112758303

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

爬虫学习01

爬虫的概念：网络爬虫，就是模拟客户端（主要指浏览器）发送网络请求，接收请求响应，一种按照一定规则，自动地抓取互联网信息的程序
模拟浏览器，发送请求，获取响应

爬虫特点：

原则上，只要是客户端能做的事情，爬虫都能够做到
爬虫也只能获取客户端所展示出来的数据

爬虫的作用：

数据采集
爬取微博等社交网站评论（后续机器学习舆情分析）
爬取招聘等网站的招聘信息（数据分析、挖掘）
新浪滚动新闻
百度新闻网站
软件测试
爬虫自动化测试
虫师
12306抢票：点击查询就是发送请求，获取响应
网站上的投票
网络安全
短信轰炸
web漏洞扫描

爬虫的分类：

根据爬取网站数据不同：
通用爬虫:目标没有上限，如搜索引擎
聚集爬虫：目标网站是有上限的，专门爬取某一类的网站的数据
根据是否以获取数据为目的：
功能性爬虫：投票、点赞、web漏洞扫描等，实现某一功能，而不爬取数据。
数据增量爬虫：比如数据增量，以获取数据为目的，爬取网站数据存在数据库中。
根据url地址和对应网页内容是否改变：
url改变，网页内容也变换的数据增量爬虫
url不变，网页变化的数据增量爬虫

爬虫的流程：

获取url
发送请求，获取响应这里要用的http协议
解析响应
保存数据

HTTP协议：
在爬虫过程中，发送请求获取响应时要用到http/https协议。

http和https协议的区别：

http协议：超文本传输协议，m默认端口是80
https协议：带有安全套接字层的超文本传输协议，默认端口是443，是http+ssl（安全套接字层）
https协议比http协议更安全，http协议是明文传输，安全性不强。https协议的ssl对传输内容（请求体或响应体）进行加密处理。

常见的请求头与响应头

常用请求头：
host 域名
Connection 长链接
Upgrade-Insecure-Requests 升级为https请求
User-Agent 用户代理，作用是告诉服务器发送请求的浏览器以及机器的信息。
Referer 页面跳转处，用于检查请求是否合法，如果一个请求是直接通过详细的url进入某一详情页面，就可以怀疑这个请求是爬虫，因为正常请求都是一步一步点击来的。 Referer还可以用于防盗链（图片、视频）。
Cookie 保持会话，比如淘宝等只有登录状态才可以购买东西。常用于判断是否是某一个用户
Authorization 用于表示http协议中需要认证资源的认证信息，比如劲jwt认证
响应头：
Set-Cookie

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习01

爬虫学习01爬虫的概念：网络爬虫，就是模拟客户端（主要指浏览器）发送网络请求，接收请求响应，一种按照一定规则，自动地抓取互联网信息的程序模拟浏览器，发送请求，获取响应爬虫特点：原则上，只要是客户端能做的事情，爬虫都能够做到爬虫也只能获取客户端所展示出来的数据爬虫的作用：数据采集爬取微博等社交网站评论（后续机器学习舆情分析）爬取招聘等网站的招聘信息（数据分析、挖掘）新浪滚动新闻百度新闻网站软件测试爬虫自动化测试虫师12306抢票：点击查询就是发送请求，获取响应网站上的投票
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。