爬虫基础 --beautifilsoup4库(解析网页信息)

本文介绍了如何使用BeautifulSoup4库进行网页信息解析,包括创建BeautifulSoup对象、解析器的选择、四种主要对象的类型以及遍历和搜索文档树的方法。此外,还讲解了CSS选择器的使用和实例演示。
摘要由CSDN通过智能技术生成

官方文档:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

创建BeautifulSoup对象

1.导入bs4库
from bs4 import BeautifulSoup
2.创建beautifulsoup对象
soup=BeautifulSoup(“html字符串”或者本地html文件)
3.格式化输出
print(soup.prettify())


bs4主要解析器解释

-使用方式:BeautifulSoup(markup,”解析器”)
-主要的解析器:
–Python标准库 “html.parser”默认解析器(速度适中,文档容错强)
–lxm HTTML解析器 “lxml”(速度快,文档容错强)
–lxml XML解析器 “lxm”,”xml”
–html5lib “html5lib” (速度慢,文档容错强)
推荐使用lxml作为解析器


四大对象种类

BeautifulSoup将复制HTML文档转换一个复杂的树形结构,每个节点都是一个python对象,可以分为4种:
1.Tag
-Tag对象与XML或HTML原文档中的tag相同

soup=BeautifulSoup("<b class="boldest>hello bs</b>")
tag=soup.b
type(tag)  #<class 'bs4.element.Tag'>
两个重要属性:
  (1)name 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值