网络爬虫学习--爬小说

参考别人,自己摸索,整到凌晨快一点,成功!

嘛也不说,码上!

保存文件那个地方可以用  .value,,出来名称就是数字的了,否则带中括号,直接用了一个LIST

import requests
from bs4 import BeautifulSoup
import time
import re
def get_data(url,header):
     response=requests.get(url,header)
     return response.content
def get_text(url,header):
    soup_texts=BeautifulSoup(get_data(url,header),'lxml')
    texts=soup_texts.find_all(id='content',class_='showtxt')
    soup_text=BeautifulSoup(str(texts),'lxml')
    return soup_text.div.text.replace('\xa0','')

def get_url(url,header,listpath):
    response = requests.get(url, header)
    soup=BeautifulSoup(response.content,'lxml')
    urllist=soup.find_all('div',{'class','listmain'})
    url_down_list=BeautifulSoup(str(urllist),'lxml')
    url_get_list=[]
    f=open(listpath,'a')
    begin_flag=False

    for child in url_down_list.dl.children:
        if child!='\n':
            if child.string== u"《一念永恒》正文卷":
                begin_flag=True

            if begin_flag==True and child.a!=None:
                down_url="http://www.biqukan.com" + child.a.get('href')
                url_get_list.append(down_url)
                down_name=child.string
                f.write(down_name+' '+down_url+'\n')
    f.close()
    return url_get_list
def save_file(path,text):
    f=open(path,'a')
    f.write(text)
    f.close()

if __name__=='__main__':
    url = 'http://www.biqukan.com/1_1094/'
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}
    listpath='H:/novel/namelist.txt'
    urls=get_url(url, header, listpath)
    num=len(urls)
    count=0
    for url_r in urls:
        text=get_text(url_r,header)
        patt=re.compile(r'[0-9]{7}|[0-9]{8}')
        name_save=re.findall(patt,url_r)
        textpath='H:/novel/'+str(name_save)+'.txt'
        save_file(textpath,text)
        count+=1
        print('已下载%.3f%%'%(count/num*100))
        time.sleep(1)
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值