02.爬虫---解析数据和提取数据---BeautifulSoup

最新推荐文章于 2022-11-03 19:51:43 发布

Croyance_M

最新推荐文章于 2022-11-03 19:51:43 发布

阅读量1.8k

点赞数 3

分类专栏：爬虫学习

本文链接：https://blog.csdn.net/Croyance_M/article/details/89638180

版权

本文介绍了BeautifulSoup库在Python爬虫中用于解析数据和提取数据的方法。主要内容包括：安装BeautifulSoup，使用html.parser作为解析器，讲解find()和find_all()方法及其在Tag对象上的应用，以及简单的爬虫练习，如爬取书店分类、书籍信息和豆瓣TOP250电影数据。

摘要由CSDN通过智能技术生成

BeautifulSoup不是Python库，需要单独安装-

pip install BeautifulSoup4 #Mac是pip3

一、解析数据

bs对象：bs对象=BeautifulSoup(要解析的文本,'解析器')，

其中，要解析的文本必须是字符串！后面的参数用来标识解析器，现在用的是一个Python内置库：html.parser。（它不是唯一的解析器，但是比较简单的）

import requests
from bs4 import BeautifulSoup

res=requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
html=res.text
#这里html是str类型
soup=BeautifulSoup(html,'html.parser')
#将html（str类型）转换成soup（被解析过的BeautifulSoup对象）。html和soup打印出来的是一样的文本，是因为BeautifulSoup对象在直接打印它的时候会调用该对象内的str方法，所以直接打印 bs 对象显示字符串是str的返回结果。
#但将str转换成BeautifulSoup对象才能调用相关的属性的方法
print(soup)
print(type(soup))

二、提取数据

提取数据的两大知识点：find()和find_all()，Tag对象。

1）find()和find_all()

是BeautifulSoup对象的两个方法，可以匹配html的标签和属性