原文来自FishC。
1)URI是统一资源标识符(Universal Resource Identifier),用字符串来标识某一互联网资源;
URL是统一资源定位符(Universal Resource Locator),表示资源的地址;URI属于父类,而URL属于URI的子类;
2)爬虫:就是一个程序,用于沿着互联网结点爬行,不断访问不同的网站,以便获取它所需的资源;
需防止:爬取同一个URL内容;如果一个URL内容本省包含URL本身,要避免递归;
作为一个网站开发者,如何禁止百度爬虫访问网站中的敏感信息:在网站的根目录下创建并编辑robots.txt文件,用于表明我们不希望搜索引擎抓取工具访问网站上的哪些内容;此文件使用的是Robots排除标准,该标准是一项协议,所有正规搜索引擎的蜘蛛均会遵循该协议爬取;
3)urllib.request.urlopen()返回的是一个HTTPResponse实例对象,它属于http.client模块;可以用type()来检查;
>>>response=urllib.request.urlopen("http://baidu.com")
>>>type(response)
<class 'http.client.HTTPResponse'>
4)chardet字符识别库的安装:
- 官网上下载最新的文件chardet-3.0.4-py2.py3-none-any.whl
- 拷贝此文件到Python的目录*\python36-64\scripts
- 在cmd下进入此目录
- 在cmd下输入pip.exe install chardet-3.0.4-py2.py3-none-any.whl