Python3 bs4库BeautifulSoup爬虫网页解析入门

最新推荐文章于 2024-05-27 11:18:02 发布

i4madmin

最新推荐文章于 2024-05-27 11:18:02 发布

阅读量870

点赞数 1

本文链接：https://blog.csdn.net/qq_43054896/article/details/105030045

版权

一、4种BeautifulSoup库解析器：

BeautifulSoup解析器常配合网络爬虫解析返回的网页文档

1、bs4的HTML解析器：
安装bs4库：pip install bs4
解析用法：BeautifulSoup(mk,‘html.parser’)

2、lxml的HTML解析器：
安装lxml库：pip install lxml：
解析用法：BeautifulSoup(mk,‘lxml’)

3、lxml的XML解析器：
安装lxml库：pip install lxml：
解析用法：BeautifulSoup(mk,‘xml’)

4、html5lib的解析器：
安装html5lib库：pip install html5lib：
解析用法：BeautifulSoup(mk,‘html5lib’)

bs4库BeautifulSoup解析器解析页面示例：

#!/usr/bin/python
# coding = utf-8
from bs4 import BeautifulSoup
import requests
url = 'https://blog.csdn.net/qq_43054896'
try:
    r = requests.get(url)
    r.raise_for_status()
    #  bs4库BeautifulSoup解析返回页面内容
    soup = BeautifulSoup(r.text,'html.parser')
except:
    print('error')

二、BeautifulSoup元素的5种基本属性

BeautifulSoup解析器以一对对的标签作为信息元素。

1、tag：标签，最基本的信息组织单元，<>和</>标明开头和结尾

	1、soup.find_all(<tag>) 等价于 soup(<tag>)
	2、<tag>.find_all(.

最低0.47元/天解锁文章

i4madmin

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python3 bs4库BeautifulSoup爬虫网页解析入门

一、4种BeautifulSoup库解析器：BeautifulSoup解析器常配合网络爬虫解析返回的网页文档1、bs4的HTML解析器：安装bs4库：pip install bs4解析用法：BeautifulSoup(mk,‘html.parser’)2、lxml的HTML解析器：安装lxml库：pip install lxml：解析用法：BeautifulSoup(mk,‘lxml...
复制链接

扫一扫