02 解析和提取网页中的数据

 

使用BeautifulSoup解析和提取网页中的数据

BeautifulSoup解析数据的用法:
bs对象 = BeautifulSoup(要解析的文本,'解析器')
在括号中,要输入两个参数,第0个参数是要被解析的文本,它必须是字符串
括号中的第1个参数用来标识解析器:html.parser(并不唯一)



提取数据
仍然使用BeautifulSoup来提取数据。
这一步,又可以分为两部分知识:find()与find_all(),以及Tag对象(标签对象)。

find()与find_all()是BeautifulSoup对象的两个方法,
它们可以匹配html的标签和属性,把BeautifulSoup对象里符合要求的数据都提取出来。
find()只提取首个满足要求的数据。
find()方法将代码从上往下找,找到符合条件的第一个数据,不管后面还有没有满足条件的其他数据,停止寻找,立即返回。
而find_all()顾名思义(find all:查找全部),提取出的是所有满足要求的数据。
代码从上往下找,一直到代码的最后,把所有符合条件的数据揣好,一起打包返回。

知识点:

'''
find()与find_all()的用法:

find(),用于提取满足要求的首个数据,BeautifulSoup对象.find(标签,属性)
示例:soup.find('div',class_='books')

find_all(),提取满足要求的所有数据,BeautifulSoup对象.find_all(标签,属性)
示例:soup.find_all('div',class_='books')
'''


'''Tag对象的三种常用属性与方法
Tag.find()和Tag.find_all(),提取Tag中的Tag
Tag.text,提取Tag中的文字
Tag['属性名'],输入参数:属性名,可以提取Tag中这个属性的值
'''


#除了我们拿到的数据之外;运行结果的数据类型,又是三个<class 'bs4.element.Tag'>,
#用find()提取出来的数据类型和刚才一样,还是Tag对象。接下来要做的,就是把Tag对象中的文本内容提出来。
#这时,可以用到Tag对象的另外两种属性——Tag.text(获得标签中的值),和Tag['属性名'](获得属性值)。

#我们用Tag.text提出Tag对象中的文字,用Tag['href']提取出URL。

 

练习题:
你需要爬取的是名言网中的名言并且打印。

文章URL:http://quotes.toscrape.com
首先,记得调用requests库和BeautifulSoup模块
然后,按照爬虫的步骤来写代码:
第1步:获取数据  requests.get()
第2步:解析数据  BeautifulSoup(网页源代码的字符串格式,'html.parser')
...
...

'''

实例代码如下:

import requests
from bs4 import BeautifulSoup
res = requests.get('http://quotes.toscrape.com')
print(res.status_code)
soup = BeautifulSoup(res.text,'html.parser')
items = soup.find_all(class_='text')
for item in items:
    print(item.text)

 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值