简单爬虫练习

引入模块

import requests
from bs4 import BeautifulSoup

爬取网页内容

# 起始页面
star_url = 'http://quotes.toscrape.com'
# 刚开始时下一页就是起始页
next_pag_url = star_url
# 不停获取下一页
while next_pag_url:
    url = requests.get(next_pag_url)
    url.raise_for_status()
    bs = BeautifulSoup(url.text,'html.parser')

    # 获取下一页按钮
    next_pag = bs.find('li',class_ = 'next')
    # 如果没有下一页就结束
    if not next_pag:
        break
    # 去下一页链接
    next_pag_url = next_pag.a['href']
    # 拼装链接成完整的URL
    next_pag_url = star_url + next_pag_url
    # print(url.text)
    # 解析出当前页面的内容
    div_list = bs.find_all('div',class_='quote')
    # print(div_list)
    for div in div_list:
        print(div.small.text,':',div.span.text)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值