Python-爬虫必备小知识点一

最新推荐文章于 2024-10-08 12:37:10 发布

枫 …

最新推荐文章于 2024-10-08 12:37:10 发布

阅读量226

点赞数

分类专栏： Python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43311363/article/details/113779760

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

爬虫知识点一

1.URL和URI的区别
URI 是统一资源标识符（Universal Resource Identifier），URL 是统一资源定位符（Universal Resource Locator）。用一句话概括它们的区别：URI 是用字符串来标识某一互联网资源，而 URL 则是表示资源的地址（我们说某个网站的网址就是 URL），因此 URI 属于父类，而 URL 属于 URI 的子类。
2.什么是爬虫
爬虫事实上就是一个程序，用于沿着互联网结点爬行，不断访问不同的网站，以便获取它所需要的资源
3.设计爬虫时应该特别注意什么问题
不要重复爬取同一个 URL 的内容。假设你没做这方面的预防，如果一个 URL 的内容中包含该 URL 本身，那么就会陷入无限递归
4.如何禁止正规爬虫访问你的敏感内容
在网站的根目录下创建并编辑 robots.txt 文件，用于表明您不希望搜索引擎抓取工具访问您网站上的哪些内容。此文件使用的是 Robots 排除标准，该标准是一项协议，所有正规搜索引擎的蜘蛛均会遵循该协议爬取。既然是协议，那就是需要大家自觉尊重，所以该协议一般对非法爬虫无效。
5.访问的网址不存在，会产生哪类异常
HTTPError
6.为了解决 ASCII 编码的不足，什么编码应运而生
Unicode 编码。扩展阅读关于编码的那篇文章太长了，生涩难懂，对于对编码问题还一头雾水的请看

什么是编码

事实上计算机只认识 0 和 1，然而我们却可以通过计算机来显示文本，这就是靠编码实现的。编码其实就是约定的一个协议，比如 ASCII 编码约定了大写字母 A 对应十进制数 65，那么在读取一个字符串的时候，看到 65，计算机就知道这是大写字母 A 的意思。

由于计算机是美国人发明的，所以这个 ASCII 编码设计时只采用 1 个字节存储（事实上只用了 7 位，1 个字节有 8 位），包含了大小写英文字母、数字和一些符号。但是计算机在全世界普及之后，ASCII 编码就成了一个瓶颈，因为 1 个字节是完全不足以容纳各国语言的。

大家都知道英文只用 26 个字母就可以组成不同的单词，而汉字光常用字就有好几千个，至少需要 2 个字节才足以存放，所以后来中国制订了 GB2312 编码，用于对汉字进行编码。

然后日本为自己的文字制订了 Shift_JIS 编码，韩国为自己的文字制订了 Euc-kr 编码，一时之间，各国都制订了自己的标准。不难想象，不同的标准放在一起，就难免出现冲突。这也正是为什么最初的计算机总是容易看到乱码的现象。

为了解决这个问题，Unicode 编码应运而生。Unicode 组织的想法最初也很简单：创建一个足够大的编码，将所有国家的编码都加进来，进行统一标准。

没错，这样问题就解决了。但新的问题也出现了：如果你写的文本只包含英文和数字，那么用 Unicode 编码就显得特别浪费存储空间（用 ASCII 编码只占用一半的存储空间）。所以本着能省一点是一点的精神，Unicode 还创造出了多种实现方式。

比如常用的 UTF-8 编码就是 Unicode 的一种实现方式，它是可变长编码。简单地说，就是当你的文本是 ASCII 编码的字符时，它用 1 个字节存放；而当你的文本是其它 Unicode 字符的情况，它将按一定算法转换，每个字符使用 1~3 个字节存放。这样便实现了有效节省空间的目的。

ASCII编码：用来表示英文，它使用1个字节表示，其中第一位规定为0，其他7位存储数据，一共可以表示128个字符。

拓展ASCII编码：用于表示更多的欧洲文字，用8个位存储数据，一共可以表示256个字符

GBK/GB2312/GB18030：表示汉字。GBK/GB2312表示简体中文，GB18030表示繁体中文。

Unicode编码：包含世界上所有的字符，是一个字符集。

UTF-8：是Unicode字符的实现方式之一，它使用1-4个字符表示一个符号，根据不同的符号而变化字节长度。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。