02.爬虫---解析数据和提取数据---BeautifulSoup

本文介绍了BeautifulSoup库在Python爬虫中用于解析数据和提取数据的方法。主要内容包括:安装BeautifulSoup,使用html.parser作为解析器,讲解find()和find_all()方法及其在Tag对象上的应用,以及简单的爬虫练习,如爬取书店分类、书籍信息和豆瓣TOP250电影数据。
摘要由CSDN通过智能技术生成

BeautifulSoup不是Python库,需要单独安装-

pip install BeautifulSoup4 #Mac是pip3

一、解析数据

  • bs对象:bs对象=BeautifulSoup(要解析的文本,'解析器')

其中,要解析的文本必须是字符串!后面的参数用来标识解析器,现在用的是一个Python内置库:html.parser。(它不是唯一的解析器,但是比较简单的)

import requests
from bs4 import BeautifulSoup

res=requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
html=res.text
#这里html是str类型
soup=BeautifulSoup(html,'html.parser')
#将html(str类型)转换成soup(被解析过的BeautifulSoup对象)。html和soup打印出来的是一样的文本,是因为BeautifulSoup对象在直接打印它的时候会调用该对象内的str方法,所以直接打印 bs 对象显示字符串是str的返回结果。
#但将str转换成BeautifulSoup对象才能调用相关的属性的方法
print(soup)
print(type(soup))

二、提取数据

提取数据的两大知识点:find()和find_all(),Tag对象。

1)find()和find_all()

是BeautifulSoup对象的两个方法,可以匹配html的标签和属性

find()与find_all()的用法
方法 作用 用法 结果类型
fin
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值