手把手教你使用Python网络爬虫下载一本小说(附源码学习)

前言

本文教大家如何使用Python爬虫抓取网页小说,并批量下载到本地的详解教程!

Python入门基础教程【文末有惊喜福利🎁】


首先我们先选择一本小说

图片

一、小说下载

    如果你想下载该网站上的任意一本小说的话,直接点击链接进去,如下图所示。

图片

 只要将URL中的这个数字拿到就可以了,比方说这里是951,那么这个数字代表的就是这本书的书号,在后面的代码中可以用得到的。

二、具体实现

# coding: utf-8import requestsimport osfrom bs4 import BeautifulSoupimport timedef book_page_list(book_id):    '''    通过传入的书号bookid,获取此书的所有章节目录    :param book_id:    :return: 章节目录及章节地址    '''    url = 'http://www.biquw.com/book/{}/'.format(book_id)    headers = {        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}    response = requests.get(url, headers)    response.encoding = response.apparent_encoding    response = BeautifulSoup(response.text, 'lxml')    booklist = response.find('div', class_='book_list').find_all('a')    return booklistdef book_page_text(bookid, booklist):    '''    通过书号、章节目录,抓取每一章的内容并存档    :param bookid:str    :param booklist:    :return:None    '''    try:        for book_page in booklist:            page_name = book_page.text.replace('*', '')            page_id = book_page['href']            time.sleep(3)            url = 'http://www.biquw.com/book/{}/{}'.format(bookid,page_id)            headers = {                'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}            response_book = requests.get(url, headers)            response_book.encoding = response_book.apparent_encoding            response_book = BeautifulSoup(response_book.text, 'lxml')            book_content = response_book.find('div', id="htmlContent")            with open("./{}/{}.txt".format(bookid,page_name), 'a') as f:                f.write(book_content.text.replace('\xa0', ''))                print("当前下载章节:{}".format(page_name))    except Exception as e:        print(e)        print("章节内容获取失败,请确保书号正确,及书本有正常内容。")if __name__ == '__main__':    bookid = input("请输入书号(数字):")    # 如果书号对应的目录不存在,则新建目录,用于存放章节内容    if not os.path.isdir('./{}'.format(bookid)):        os.mkdir('./{}'.format(bookid))    try:        booklist = book_page_list(bookid)        print("获取目录成功!")        time.sleep(5)        book_page_text(bookid, booklist)    except Exception as e:        print(e)        print("获取目录失败,请确保书号输入正确!")

源码文件获取:《Python抓取网页小说源码分享》(安全链接,放心点击)

程序运行之后,在控制台输入书号,即可开始进行抓取了。

图片

在本地也会自动新建一个书号命名的文件夹,在该文件夹下,会存放小说的章节,如下图所示。

图片

三、常见问题

    在运行过程中小伙伴们应该会经常遇到这个问题,如下图所示。

图片

    这个是因为访问太快,网站给你反爬了。可以设置随机的user-agent或者上代理等方法解决。

图片

四、总结

 这篇文章主要给大家介绍了小说内容的获取方法,基于网络爬虫,通过requests爬虫库和bs4选择器进行实现,并且给大家例举了常见问题的处理方法。

感谢你的阅读,关注我,后续分享更多有趣源码及教程!

读者福利:对Python感兴趣的童鞋,为此小编专门给大家准备好了Python全套的学习资料

 全套Python学习资料分享《python安装工具&全套学习资料》免费分享(安全链接,放心点击)

  Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

图片

视频教程

大信息时代,传统媒体远不如视频教程那么生动活泼,一份零基础到精通的全流程视频教程分享给大家

图片

实战项目案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

图片

图片

副业兼职路线

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值