11.bs4简单的使用

bs4是一个HTML/XML的解析器,其主要功能是解析和提取HTML/XML数据。它不仅支持CSS选择器,而且支持Python标准库中的HTML解析器,以及lxml的XML解析器。通过使用这些转化器,实现了惯用的文档导航和查找方式,节省了大量的工作时间,提高了开发项目的效率。

一、构建 BeautifulSoup对象

from bs4 import BeautifulSoup
soup=BeautifulSoup(html, ‘lxml’)

上述示例中,在创建BeautifulSoup实例时共传入了两个参数。其中,第一个参数表示包含被解析HTML文档的字符串;第二个参数表示使用Rml解析器进行解析。

目前,bs4 支持的解析器包括Python标准库、lxml 和html5lib

解析器参数
Python标准库‘html.parser’
lxml HTML 解析器‘ lxml’
html5lib‘html5lib ’

完整代码

from urllib import request

from bs4 import BeautifulSoup

html = request.urlopen("http://www.lctvu.sd.cn/xwzx/xyxw.htm") #执行请求

soup= BeautifulSoup(html,'lxml')    #将请求结果传递给bs构造对象

# print(soup.getText)           #输出整个bs的内容

li=soup.select("#right .min_right_new ul li")

for tag in li:

    print(tag.a.get_text()+":"+tag.span.get_text())
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值