开启 Python 爬虫之路必知必会的知识

最新推荐文章于 2024-05-02 21:47:38 发布

叶庭云

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量1.1k

点赞数 6

分类专栏： Python爬虫实战文章标签： python 爬虫 html css javascript

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fyfugoyfa/article/details/109736846

版权

Python爬虫实战专栏收录该内容

20 篇文章 38 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python爬虫的基础知识，包括超文本（HTML）、URL和URI、HTTP和HTTPS协议，以及HTTP请求过程。讲解了HTTP请求的四个部分：请求方法（GET和POST的区别）、请求的网址、请求头（如Cookie、Referer、User-Agent）和请求体。同时，阐述了Web网页基础，包括HTML、CSS和JavaScript的作用。理解这些基础知识对于初学者掌握爬虫至关重要。

摘要由CSDN通过智能技术生成

文章目录

一、爬虫基本原理
二、Web网页基础

一、爬虫基本原理

1. 超文本

超文本：Hypertext，我们在浏览器里看到的网页就是超文本解析而成的，其网页源代码是一系列 HTML 代码，里面包含了一系列标签，比如 img 显示图片，p 指定显示段落等。浏览器解析这些标签后，便形成了我们平常看到的网页，而网页的源代码 HTML 就可以称作超文本。

例如，我们在 Chrome 浏览器里面打开任意一个页面，比如我的 CSDN 博客首页，右击任一地方并选择 “检查” 项（或者直接按快捷键 F12），即可打开浏览器的开发者工具，这时在 Elements 选项卡即可看到当前网页的源代码，这些源代码都是超文本，如下图所示：

2. URL 和 URI

URI 的全称为 Uniform Resource Identifier，即统一资源标志符
URL 的全称为 Universal Resource Locator，即统一资源定位符

比如Github的图标

了解本专栏

超级会员免费看

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。