爬虫排除标准 相关方法和参数(2

爬虫排除标准 相关方法和参数(2)

对于网络爬虫的分类
有常见三种

  1. . 第一类是 爬取页面 玩转网页的 这种类型的网络爬虫规模都比较小,数据量比较小 爬取的速度不敏感,大多数使用 Request库
  2. 第二类 爬取网站 爬取系列网站的 这种类型的网络爬虫 属于 中等规模的
    爬取的数据量也比较大 他对爬取速度敏感,使用Scrapy类库
  3. 第三类 就是全网爬取 这种属于大规模全 Internet搜索引擎,爬取速度是他的关键,他们使用的类库都是定制开发的

网络爬虫引发的问题
Robots协议 (爬虫协议、机器人协议) 的全称是 网络爬虫排除标准
Robots Exclusion protocal 网站通过robots协议告诉搜索引擎哪些可以爬取

术语 user-agent :表示对于网络爬虫来源
Allow 允许 Disallow 不允许

构造一个BeautifulSoup类的参数有两个:
  • 第一个是html/xml的文档内容,可以是本地文件,也可以是使用Requests库从url上获取的页面内容
  • 第二个 就是 默认解析器 html.parser 他是Python内置的标准库 也可以安装其他库

具体解析器的使用方法和条件如表

bs4

  • BS4的HTML解析器 BeautifulSoup(mk,‘html.parser’)
  • lxml 的HTML解析器 BeautifulSoup(mk,‘lxml’)
  • lxml 的xml解析器 Beautiful Soup(mk,‘xml’)
  • html5lib 的解析器 Beautiful Soup(mk,‘html5lib’)

基本元素

  • Tag 标签 <> </>

  • Name 标签名

  • Attributes 标签的属性,字典形式组织

  • NavigableString <></> 标签非属性字符串

  • Comment 标签内字符串的注释部分,一种特殊的Comment类型


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值