【风变python学习笔记】2关-爬虫初体验

最新推荐文章于 2024-10-02 10:53:34 发布

老猪心飞扬

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量320

点赞数 1

分类专栏：老猪笔记文章标签： BeautifulSoup 网页解析数据提取 Python HTML

本文链接：https://blog.csdn.net/m0_49016094/article/details/116212496

版权

老猪笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

风变笔记

BeautifulSoup怎么用

BeautifulSoup怎么用

1.提取数据

访问风变提供的URL

from bs4 import BeautifulSoup
soup = BeautifulSoup(字符串,'html.parser')

第0个参数：必须是字符串类型
第1个参数：是解析器

虽然response.text和soup打印出的内容表面上看长得一模一样，却有着不同的内心，它们属于不同的类：<class ‘str’> 与<class ‘bs4.BeautifulSoup’>。前者是字符串，后者是已经被解析过的BeautifulSoup对象。之所以打印出来的是一样的文本，是因为BeautifulSoup对象在直接打印它的时候会调用该对象内的__str__方法，所以直接打印 bs 对象显示字符串是__str__的返回结果。

2.解析数据

1.find（标签，属性）：提取出的是tag对象

2.find_all（标签，属性）：提取出list列表

kind = item.find('h2')  # 在列表中的每个元素里，匹配标签<h2>提取出数据
title = item.find(class_='title')  # 在列表中的每个元素里，匹配属性class_='title'提取出数据
brief = item.find(class_='info')  # 在列表中的每个元素里，匹配属性class_='info'提取出数据