python爬虫从入门到放弃 二(爬取小说网站)

9 篇文章 0 订阅
6 篇文章 0 订阅

本期在闲暇之余用BeautifulSoup爬取了一个小说网站,大家可以学习一下,写的注释还算细,如果不懂的欢迎在下面评论区问我

   import requests#引入requests
    from bs4 import BeautifulSoup
    url='http://www.seputu.com/'#访问的网页
    r=requests.get(url).text#用requests访问网页获取HTML文档,并打印
    # print(r)
    '''
    解析HTMl分析如下:
        标题和章节都在<div class='mulu'>标记下,标题位于<div class='nulu-title'>的<h2>中,
        章节位于其中的<div class='box'>下的<a>标签中
    '''
    #把r转化成BeautifulSoup对象soup
    soup=BeautifulSoup(r,'html.parser',from_encoding='utf-8')#html.parser
    #遍历soup对象用find_all函数寻找(class='mulu')的标签获得mulu
    for mulu in soup.find_all(class_='mulu'):
        #用find方法寻找h2
        h2=mulu.find('h2')
        #用find_all查找出('div',{"class":"box"})标记遍历出b
        for b in mulu.find_all('div',{"class":"box"}):
            #用find_all的方法找出b中的("a")标签,遍历出i
            for i in b.find_all('a'):
                #获取出章节的url定义成href
                href=i.get('href')
                #获取出章节的名字定义为box_title
                box_title=i.get('title')
                #输出章节名和url
                # print(href,box_title)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值