Python爬虫
文章平均质量分 74
01红C
宇宙超粒终端控制中心委员会地球分委——委员长
展开
-
URL编码_解码详解
当 URL 路径或者查询参数中,带有中文或者特殊字符的时候,就需要对 URL 进行编码(采用十六进制编码格式)。URL 编码的原则是使用安全字符去表示那些不安全的字符。安全字符:指的是没有特殊用途或者特殊意义的字符。原创 2024-01-15 19:25:23 · 1373 阅读 · 0 评论 -
Python下载安装pip方法与步骤_pip国内镜像
在本文中,我们将深入探讨Python的包管理工具pip的下载和安装过程,并提供详细的步骤指导。我们将涵盖在不同操作系统上安装pip的方法,同时提供一些国内镜像站点的推荐,以便在国内环境中更快速地下载和安装Python包。通过阅读本文,您将能够轻松地掌握pip的安装方法,并开始使用它来管理和安装Python包。在本文中,我们将深入探讨Python的包管理工具pip的下载和安装过程,并提供详细的步骤指导。我们将涵盖在不同操作系统上安装pip的方法,同时提供一些国内镜像原创 2024-01-15 18:54:39 · 3265 阅读 · 0 评论 -
User-Agent(用户代理)是什么?
User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。网络爬虫使用程序代码来访问网站,而非人类亲自点击访问,因此爬虫程序也被称为“网络机器人”。绝大多数网站都具备一定的反爬能力,禁止网爬虫大量地访问网站,以免给网站服务器带来压力。这里要学习的 User-Agent 就是反爬策略的第一步。原创 2024-01-15 17:08:35 · 2206 阅读 · 0 评论 -
第一个Python程序_获取网页 HTML 信息[Python爬虫学习笔记]
使用 Python 内置的 urllib 库获取网页的 html 信息。注意,urllib 库属于 Python 的标准库模块,无须单独安装,它是 Python 爬虫的常用模块。原创 2024-01-15 16:46:03 · 658 阅读 · 0 评论