简单爬虫练习

最新推荐文章于 2023-10-11 15:09:46 发布

lxccc9

最新推荐文章于 2023-10-11 15:09:46 发布

阅读量115

点赞数

分类专栏： python 笔记

本文链接：https://blog.csdn.net/lxccc9/article/details/118366418

版权

笔记同时被 2 个专栏收录

22 篇文章 1 订阅

订阅专栏

python

11 篇文章 1 订阅

订阅专栏

引入模块

import requests
from bs4 import BeautifulSoup

爬取网页内容

# 起始页面
star_url = 'http://quotes.toscrape.com'
# 刚开始时下一页就是起始页
next_pag_url = star_url
# 不停获取下一页
while next_pag_url:
    url = requests.get(next_pag_url)
    url.raise_for_status()
    bs = BeautifulSoup(url.text,'html.parser')

    # 获取下一页按钮
    next_pag = bs.find('li',class_ = 'next')
    # 如果没有下一页就结束
    if not next_pag:
        break
    # 去下一页链接
    next_pag_url = next_pag.a['href']
    # 拼装链接成完整的URL
    next_pag_url = star_url + next_pag_url
    # print(url.text)
    # 解析出当前页面的内容
    div_list = bs.find_all('div',class_='quote')
    # print(div_list)
    for div in div_list:
        print(div.small.text,':',div.span.text)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lxccc9

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单爬虫练习

引入模块import requestsfrom bs4 import BeautifulSoup爬取网页内容# 起始页面star_url = 'http://quotes.toscrape.com'# 刚开始时下一页就是起始页next_pag_url = star_url# 不停获取下一页while next_pag_url: url = requests.get(next_pag_url) url.raise_for_status() bs = Beau
复制链接

扫一扫