python爬虫——从此不用再愁找不到小说txt文件

本文介绍了一个使用python编写的爬虫程序,用于自动抓取并下载指定小说的TXT文件。通过搜索免费小说网站笔趣阁,实现从输入小说名称到匹配、获取章节链接、再到逐章内容抓取并保存为本地TXT的过程。文章详细讲解了每个步骤的关键代码和思路,包括处理网络错误、使用BeautifulSoup解析HTML以及内容编码问题。
摘要由CSDN通过智能技术生成

python爬虫——从此不用再愁找不到小说txt文件

最近在学习python,学了个大概就开始写爬虫了,之前做了个糗百的简单爬虫,然后底下还做了一些学校教务系统的爬虫,爬取了自己的成绩,看着挂科的大英,心中一万头草泥马走过,说下今天的正题

昨天才感觉自己的爬虫基础还不是很好,就准备做几个小程序练手,就想到了从小就看的电子小说,当时可以是千辛万苦才从网站找到的TXT文件,传到我的MP5上半夜偷偷看,现在想起来还是美滋滋,又跑偏了
于是乎,我准备做一个可以自动爬取一部电子小说TXT文件的程序

接下来就是百度“免费小说网”,然后选取了笔趣阁,进行了爬取,在这里感谢笔趣阁


我们要做的步骤
1. 输入你要寻找的小说全名并将其数据化传入请求访问的全书网搜索界面 ->
2. 找到搜索界面第一个小说的名字与你寻找的小说名字匹配,如果匹配失败则提示并退出,成功则提取第一个小说的网址进行访问 ->
3. 访问小说文章页面,并且提取所有章节的链接进行后续访问 ->
4. 最后进每一章内容的抓取,保存到本地txt文件中 ->Over


One

首先要会使用浏览器的F12功能

这里写图片描述

红线画出来的区域其实就是在搜索URL“http://so.ybdu.com/cse/search?”后面加的后缀(我对网页方面只是简单了解,所以用通俗的语言说),其中s和entry都是固定的,q后面则是我输入的“盘龙”的URL编码,以下是核心代码

    base_url = 'http://so.ybdu.com/cse/search?'
    name = raw_input('请输入你要寻找的电子书完整名称:')
    headers = {
  'User-agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0'}
    data = urllib.urlencode({
        'q':name,
        's':'14402670595036768243',
        'entry':'1'
    })
    real_url = base_url + data
    req = urllib2.Request(real_url,headers=headers)
    
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值