python网络爬虫与信息提取(二)解析html页面的方法

本文介绍了Python网络爬虫中BeautifulSoup库的使用,包括基本元素、遍历方法、HTML内容的格式化和编码,以及信息组织与提取。通过实例展示了如何爬取中国大学排名信息,利用requests和BeautifulSoup完成网页抓取和数据提取。
摘要由CSDN通过智能技术生成

小结:
(一)
bs4库的基本元素:

tag 标签
name 标签名称
attributes 标签属性
navigablestring 字符串
comment 注释信息
bs库的遍历功能:
下行遍历
【.contents】[.children].[.descendants]
上行遍历
【.parents】【.parent】
平行遍历
【.next.sibling】【.previous_sibling】【.next_siblings】【.next_siblings】

信息标记三种方法: xml json yaml
信息提取的一般方法<>.find_all(name,sttrs,recursive,string,**kwargs)
可以把.find_all省略

(一)beautiful soup库
(1)安装 pip install beautifulsoup4

测试是否安装成功,对demo进行html的解析 查看该页面的源代码
显示安装成功
from bs4 import BeautifulSoup在这里插入图片描述
(2)beautifulsoup库的基本元素
该库是解析html的功能库
源代码有一组尖括号构成的标签组织起来的。
beautifulsoup库是解析 遍历 维护 “标签树”的功能库
beautifulsoup 对应一个html/xml文档的全部内容
html.parser()
解析器:
在这里插入图片描述
基本元素:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值