python 网络爬虫-批量打包下载小说

import urllib.request
import re
import os
import time
mulu='https://www.9dxs.com/2/2308/index.html'
response = urllib.request.urlopen(mulu)
html=response.read().decode('gbk')



def get_zhang(lianjie,biaoti):
    zhang ='https://www.9dxs.com/2/2308/'+lianjie
    response = urllib.request.urlopen(zhang)
    html=response.read().decode('gbk')
    pattern=re.compile(u'(<div id="content" class="content">)(.*?)(</div>.*<div class="chapterpage">)',re.S)
    zhang_html=pattern.findall(html)
    for zhengwen in zhang_html:
        text=re.sub( '<.*?>', '', zhengwen[1])
        text=re.sub( '&nbsp;', '  ', text)
        return text
   
def baocun(biaoti,zhengwen):
    fo = open('帝临鸿蒙.txt', "a+")         #打开小说文件
    fo.write('\r\n' + biaoti + '\r\n'+zhengwen)    
    fo.close() 
pattern=re.compile(u'<li><a href="(.*?)">(.*?)</a></li>')
mulu=pattern.findall(html)
for zhang in mulu:
    biaoti=zhang[1]
    zhengwen=get_zhang(zhang[0],zhang[1])
    baocun(biaoti,zhengwen)
    time.sleep(5)  #不要太快防止给人家造成负担





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

玄星幻火

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值