Python:网络爬虫 - 1

原文来自FishC

1)URI是统一资源标识符(Universal Resource Identifier),用字符串来标识某一互联网资源;

     URL是统一资源定位符(Universal Resource Locator),表示资源的地址;URI属于父类,而URL属于URI的子类;

2)爬虫:就是一个程序,用于沿着互联网结点爬行,不断访问不同的网站,以便获取它所需的资源;

需防止:爬取同一个URL内容;如果一个URL内容本省包含URL本身,要避免递归;

作为一个网站开发者,如何禁止百度爬虫访问网站中的敏感信息:在网站的根目录下创建并编辑robots.txt文件,用于表明我们不希望搜索引擎抓取工具访问网站上的哪些内容;此文件使用的是Robots排除标准,该标准是一项协议,所有正规搜索引擎的蜘蛛均会遵循该协议爬取;

3)urllib.request.urlopen()返回的是一个HTTPResponse实例对象,它属于http.client模块;可以用type()来检查;

>>>response=urllib.request.urlopen("http://baidu.com")
>>>type(response)
<class 'http.client.HTTPResponse'>

4)chardet字符识别库的安装:

  • 官网上下载最新的文件chardet-3.0.4-py2.py3-none-any.whl
  • 拷贝此文件到Python的目录*\python36-64\scripts
  • 在cmd下进入此目录
  • 在cmd下输入pip.exe install chardet-3.0.4-py2.py3-none-any.whl
即可完成安装。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值