7.30--Python爬虫的Beautifulsoup库和文件存储

Beautifulsoup库:

就是Python的一个HTML的解析库,可以用它来方便地从网页中提取数据。借助网页的结构和属性等特性来解析网页。

解析器:
Beautiful Soup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)

在这里插入图片描述

选择器:
1、节点选择器

2、方法选择器

3、css选择器

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
1)tag:HTML 中的一个个标签,两个重要的属性,name 和 attrs :

2)NavigableString:得到了标签的内容用 .string 即可获取标签内部的文字,会输出注释

3)BeautifulSoup:BeautifulSoup 对象表示的是一个文档的全部内容,是一个特殊的 Tag

4)Comment:Comment 对象是一个特殊类型的 NavigableString 对象,不会输出注释

其中,BeautifulSoup是Tag对象的具体化;Comment是Navigablestring对象的具体化。

1、BeautifulSoup的节点选择器:
直接调用节点的名称就可以选择节点元素,再调用string属性就可以得到节点内的文本了,这种选择方式速度非常快。如果单个节点结构层次非常清晰,可以选用这种方式来解析。

选择元素
|
提取信息:获取名称 获取属性 获取内容
|
嵌套选择:继续调用节点进行下一步的选择
|
关联选择:有时候不能做到一步就选到想要的节点元素,需要先选中某一个节点元素,然后以它为基准再选择 它的子节点、父节点、兄弟节点等。

实例;

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值