Python：网络爬虫 - 1

最新推荐文章于 2021-12-20 09:38:01 发布

Asher_Yu

最新推荐文章于 2021-12-20 09:38:01 发布

阅读量225

点赞数

分类专栏： Python 文章标签： Python

Python 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

原文来自FishC。

1）URI是统一资源标识符（Universal Resource Identifier）,用字符串来标识某一互联网资源；

URL是统一资源定位符（Universal Resource Locator），表示资源的地址；URI属于父类，而URL属于URI的子类；

2）爬虫：就是一个程序，用于沿着互联网结点爬行，不断访问不同的网站，以便获取它所需的资源；

需防止：爬取同一个URL内容；如果一个URL内容本省包含URL本身，要避免递归；

作为一个网站开发者，如何禁止百度爬虫访问网站中的敏感信息：在网站的根目录下创建并编辑robots.txt文件，用于表明我们不希望搜索引擎抓取工具访问网站上的哪些内容；此文件使用的是Robots排除标准，该标准是一项协议，所有正规搜索引擎的蜘蛛均会遵循该协议爬取；

3）urllib.request.urlopen()返回的是一个HTTPResponse实例对象，它属于http.client模块；可以用type()来检查；

>>>response=urllib.request.urlopen("http://baidu.com")
>>>type(response)
<class 'http.client.HTTPResponse'>

4）chardet字符识别库的安装：

官网上下载最新的文件chardet-3.0.4-py2.py3-none-any.whl
拷贝此文件到Python的目录*\python36-64\scripts
在cmd下进入此目录
在cmd下输入pip.exe install chardet-3.0.4-py2.py3-none-any.whl

即可完成安装。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python：网络爬虫 - 1

原文来自FishC。1）URI是统一资源标识符（Universal Resource Identifier）,用字符串来标识某一互联网资源； URL是统一资源定位符（Universal Resource Locator），表示资源的地址；URI属于父类，而URL属于URI的子类；2）爬虫：就是一个程序，用于沿着互联网结点爬行，不断访问不同的网站，以便获取它所需的资源；需防止：爬取同一个UR...
复制链接

扫一扫

专栏目录

博客等级

码龄14年

3
原创

7
点赞

59
收藏

10
粉丝

关注

私信

热门文章

分类专栏

C# 6篇
WPF 26篇
Halcon 7篇
Python 19篇

最新评论

WPF: 数据绑定（Halcon）
资深键盘侠: HSmartWindowControlWPF 不能使用Draw* 之类的操作。完全是鸡肋
Halcon: Image Acquisition Callback
好你个大头鬼: 有些参数找不到位置，有点零散，有没有完整的例子啊
WPF：DrawingObject （Halcon）
weixin_39469984: GetDrawObject
Halcon: Image Acquisition Callback
我爱编程_st: 可以看我的帖子，海康相机验证通过，完整代码加详细说明https://download.csdn.net/download/newcooljun/25999079
Halcon: Image Acquisition Callback
Coding_风清扬: 看了你的贴子，挺浪费时间的。程序要么不分享，要么别瞎写

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。