Python 爬虫实战【低配版】

想下本小说没找到资源,在线看翻页又太麻烦,所以就只好自己爬一本了(当然我只会一点点爬虫)
想看的书叫《大王饶命》,随便找了个在线阅读的网址http://www.dawangraoming.com/

第一步 确定route范围

打开了第一章
http://www.dawangraoming.com/book/1385.html
和目前更新的最后一章
http://www.dawangraoming.com/book/5545.html
所以它的route从1385到5545顺序增加(后来发现它有缺失,比如说没有1388……)

第二步 确定标题、文本所在的DOM节点

打开开发者工具
标题DOM节点
这里写图片描述
文本DOM节点
这里写图片描述

第三步 代码

from bs4 import BeautifulSoup
import urllib
import re
def getTexts(url):
    try:
        html=urllib.request.urlopen(url)
    #前面说过存在缺失,所以做一个异常处理
    except urllib.error.HTTPError:
        return '',''
    else:
        bsObj=BeautifulSoup(html.read())                
        title=bsObj.find("div",id="BookCon").find('h1').get_text()
        text=bsObj.find("div",id="BookText").get_text()
        return title,text

def main(file):
    for i in range(1385,5545):
        url='http://www.dawangraoming.com/book/{}.html'.format(i)   
        title,text=getTexts(url)
        file.write(title+'\n\n'+text+'\n\n')
if __name__=="__main__":
    #小说保存路径
    file=open("./大王饶命.txt",'a')
    main(file)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值