2021-11-03大数据学习日志——数据埋点+网络爬虫——爬虫基础知识

最新推荐文章于 2023-08-26 08:45:00 发布

王络不稳定

最新推荐文章于 2023-08-26 08:45:00 发布

阅读量580

点赞数

文章标签：爬虫 python http

本文链接：https://blog.csdn.net/tingbaobaoo/article/details/121128838

版权

本文介绍了爬虫的基本概念、作用及流程，深入讲解了HTTP与HTTPS的区别，HTTP请求过程，以及浏览器开发者工具的使用，强调了爬虫在数据获取中的重要性和实际应用。

摘要由CSDN通过智能技术生成

这一节中，主要学习一些爬虫的前置知识，主要知识点有：

01_爬虫概述

知识点：

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

简而言之：爬虫就是模拟浏览器，发送请求，获取响应。

（1）12306抢票

（2）给喜欢的明星点赞、投票

（3）新闻聚合网站：百度新闻

（4）搜索引擎

（5）抓取微博评论(机器学习舆情分析)

（6）抓取招聘网站的招聘数据(数据分析、挖掘)

爬虫流程如下图所示：

（1）向起始的 url 地址发送请求，并获取响应数据(需要 http 协议)。

（2）对响应进行提取。

（3）如果提取 url，则继续发送请求获取响应。

（4）如果提取数据，将数据进行保存。

知识点：

HTTP：超文本传输协议，默认端口号是 80。
- 超文本：是指超过文本，不仅限于文本；还包括图片、音频、视频等文件。
- 传输协议：是指使用共用约定的固定格式来传递转换成字符串的超文本内容。
HTTPS：HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协议，默认端口号：443。
- SSL 对传输的内容（超文本，也就是请求体或响应体）进行加密。