requests+pyquery多线程抓取小说然后保存到本地

import requests
import os
from pyquery import PyQuery as pq
import re
from multiprocessing import Pool
import sys


url="http://wanmeishijiexiaoshuo.org/"
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
    'X-Pingback':'http://wanmeishijiexiaoshuo.org/xmlrpc.php',
}
index=1
numbers=2061

#获取章节列表
def get_html():
    response=requests.get(url,headers=headers)
    doc=pq(response.text)
    item=doc('.panel ul li')
    chapter=item.items()
    for c in chapter:
        title=c.text()
        texturl=c('a').attr('href')
        yield title,texturl,numbers
#后去章节内容
def get_neirong(texturl):
    response=requests.get(texturl,headers=headers)
    response.encoding='utf-8'
    doc=pq(response.text)
    content=doc('.content p')
    return content.text()

#保存到本地txt
def save_txt():
    global index,numbers
    if not os.path.exists('完美世界'):
        os.mkdir('完美世界')
    for item in get_html():
    #通过正则替换特殊字符,避免自动创建文件时特殊字符影响导致创建失败
        fileName = re.sub('[\/:*?"<>|]','-',item[0])
        filepath='{0}/{1}.{2}'.format('完美世界',fileName,'txt')
        #string的replace方法替换\xa0字符,避免写入文件失败
        content=str(get_neirong(item[1])).replace(u'\xa0', u' ').replace(u'\u25d1', u' ')
        sys.stdout.write("已下载:%0.3f%%" % float(index/numbers)+'\r')
        sys.stdout.flush()
        index += 1
        with open(filepath,'w') as f:
            f.write(content)


if __name__=='__main__':
    p=Pool(10)
    p.apply_async(save_txt())
    p.close()
    p.join()

初学python代码较为粗糙,后期边学习变改善

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值