正则爬虫 & 进度条

正则爬虫

import requests
import re
target="https://www.vodtw.com/Html/Book/59/59089/"

headers ={
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Safari/537.36'
}

req_text = requests.get(url=target,headers=headers)
req_text.encoding='gbk'
li_list = re.findall('i><a href="(.*?)" title=',req_text.text)
count = 1
for li in li_list:
    chapter=requests.get(url=target+li,headers=headers).text
    name = re.findall('ex.html">(.*?)</a>',chapter)[0]
    chapter_title = re.findall('id="htmltimu"> (.*?) </span></h1>',chapter)[0]
    chapter_text=(re.findall('3px;"></div>([\W\w]*?)<div class="button_con">',chapter)[0]).replace('</div>','').replace('<br>','').replace('&nbsp;','')
    percent = count / len(li_list) * 100
    print('%s 下载进度 %0.1f %%'%(name,percent),end='\r')
    count = count + 1
    with open(name+'.txt', 'a',encoding='utf-8') as f:
        f.write(chapter_title+'\n'+chapter_text+'\n')
        
print('\n'+'下载完成...')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值