Python爬虫下载斗罗大陆小说

最新推荐文章于 2024-12-29 15:05:50 发布

祁建华

最新推荐文章于 2024-12-29 15:05:50 发布

阅读量419

点赞数 9

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/mr_qijianhua/article/details/141024054

版权

import requests

from lxml import etree

# 小说网址

url = 'https://www.82zg.com/book/4551/3304465.html'

# 请求头UI伪装

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'

}

# 准备小说存放文件

f = open("斗罗大陆.txt", 'w', encoding='utf-8')

while True:

# 请求数据

resp = requests.get(url=url, headers=headers)

#设置编码

resp.encoding = 'gbk'

# print(resp.text)

#xpath解析，生产HTML节点树

e = etree.HTML(resp.text)

# print(e,type(e))

#提取小说内容

resp_content = '/n'.join(e.xpath("//div[@id='content']/text()"))

#提取章节标题

resp_title = e.xpath("//div[@class='bookname']/h1/text()")[0]

#提取下一章URL

resp_next_url = 'https://www.82zg.com' + e.xpath("//div[@class='bottem1']/a/@href")[3]

print(resp_title, resp_next_url)

#with open("斗罗大陆.txt", 'w', encoding='utf-8') as f:

#保存小说

f.write(resp_title + '\n\n' + resp_content + '\n\n')

#更新URL，循环下载下一章

url = resp_next_url

#定位最后一章网址，跳出循环

if resp_next_url == 'https://www.82zg.com/book/4551/3305371.html':

break

#下载完毕，关闭文件

f.close()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

祁建华

关注关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python爬虫篇（项目案列讲解-爬取小说）

m0_65482549的博客

06-24

4308

学习一下思路：1.我们进入需要爬取到的小说界面，右键开发者工具，选中元素显示，然后找到需要爬取的小说章节模块在代码中的位置。将a标签中的文本内容复制，然后ctrl+u打开源代码 ctrl+f将刚刚的文本内容复制查找是否有这个模块。（比较爽的是，刚好这里有，可以不需要去查看网络请求和script代码了）那么我们现在可以可以来获取源代码了编码格式的查看方式。获取源代码之后，我们现在需要去解析一下这串源代码。

Python 爬虫复习之爬取笔趣阁小说网站（不用正则）

Wang Gangdan的博客

02-28

7463

前言小说网站-笔趣阁：URL：https://www.qu.la/ 笔趣阁是一个盗版小说网站，这里有很多起点中文网的小说，该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览，不支持小说打包下载。因此，本次实战就是从该网站爬取并保存一本名为《终极斗罗》的小说，该小说是唐家三少正在连载中的一部玄幻小说。 PS：本实例仅为交流学习，支持唐三大大，请上起点中文网订阅。 ...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫实战(2)-爬取小说"斗罗大陆3龙王传说”(超详细)

weixin_33871366的博客

03-24

376

前言首先，我们来回忆一下上篇爬虫实战讲了什么：讲到了requests和bs4和一些网页基本操作。如果有不熟悉的朋友可以去看看： Python爬虫实战(1)-爬取“房天下”租房信息(超详细) 今天我们用re模块+requests来实战爬取一下，并写入TXT文件中，效果图如下：实战我们今天来爬取一下5200小说网的小说“罗大陆3龙王传说”并写入TXT文件中，我们先分析一下章节网址的规律： ht...

Python爬虫 | 爬取全书网小说斗罗大陆

爬虫进击之路

11-19

4134

网络爬虫：可以理解成网页蜘蛛，在网页上采集数据爬取流程： 1、导入模块 2、打开网页，获取原码 3、获取章节原码 4、获取正文 5、过滤‘杂质’ 6、保存下载废话不多说开始爬！！！今天爬的网站是全书网—斗罗大陆准备工作、首先我们先导入两个模块 import urllib.request #打开和浏览url中内容 import re ...

用Python实现笔趣阁小说爬取

Miku_wx的博客

12-31

3154

今天来实现以下笔趣阁小说爬虫笔趣阁的小说爬取难度还是比较低的（不涉及搜索功能）咱们用requests和xpath来完成这个小爬虫首先肯定是导包 import requests import time from lxml import etree 然后来写两个辅助函数分别用于请求网页和xpath解析函数会让我们后面的程序更加简洁方便 def get_tag(response, tag): html = etree.HTML(response) ret = html.xpath(ta

Python爬虫抓取笔趣阁小说（含源码）

蟒蛇小码农的博客

07-12

4459

每一章节对应的链接所在的结构都是一样的，全部存在于dl->dt->dd->a->href 所以我只需要获取全部的dd标签，然后一个for循环遍历所有的dd标签，然后内部再写一个for循环，即可获取正本书籍。我们需要的小说，所以现在我们需要解析note，通过下面的信息，我们可以发现需要的文字在一个div中的文字形式，所以直接解析获取文本即可。Python所有方向的技术点做的整理，形成各个领域的知识点的汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。编码格式的查看方式。

python爬取斗罗大陆

11-01

使用Python爬虫可以获取斗罗大陆的弹幕。具体步骤如下： 1. 打开Google浏览器，进入腾讯视频斗罗大陆107集。 2. 等待正片开始，按下F12进入开发者选项，点击network。 3. 在网络流中找到ajax，选中js，就可以找到弹...

Python爬虫——白嫖小说最高境界！

python_miao的博客

01-15

675

哈喽大家好我是阿喵，今天也是学习爬虫的一天利用python写一个简单的笔趣阁爬虫，根据输入的小说网址爬取整个小说并保存到txt文件。爬虫用到了BeautifulSoup库的select方法结果如图所示：本文只用于学习爬虫一、网页解析这里以斗罗大陆小说为例网址： http://www.biquge001.com/Book/2/2486/可以发现每章的网页地址和章节名都放在了 <"div id=list dl dd a>中的a标签中，所以利用BeautfulSoup中的se...

python爬虫入门之urllib库的基本使用(附实战训练爬取内容)

showswoller的博客

10-07

785

python爬虫入门之urllib库的基本使用爬取了笔趣阁中斗罗大陆的全部内容对urllib库中基本内容及模块进行了详细的介绍

Python爬取笔趣阁小说（仅供学习使用）

MinL1ghT的博客

06-14

681

首先，确保安装'requests'和'beautifulsoup4'库，若未安装在cmd运行以下命令。

Python爬虫——从笔趣阁爬小说

大鲸鱼吃小鲸鱼的专栏

01-20

2786

这是一个练习作品。用python脚本爬取笔趣阁上面的免费小说。环境：python3 类库：BeautifulSoup 数据源：http://www.biqukan.cc 原理就是伪装正常http请求，正常访问网页。然后通过bs4重新解析html结构来提取有效数据。 1. config文件包含了伪装请求头部，数据源配置（如果不考虑扩展其他数据源，可以写死）。 #!/usr/bin...

《python每天一小段》-- （10）爬取小说：斗罗大陆

爱意随风起，人生不可弃。

12-05

1679

欢迎阅读《Python每天一小段》系列！在本篇文章中，我们将介绍如何使用Python编写一个简单的爬虫程序，帮助我们爬取网络小说《斗罗大陆》的内容。

笔趣阁斗罗大陆小说爬取

m0_73760329的博客

09-25

650

url = 'https://www.biqooge.com' + next_url[0] # 拼接基本 URL。next_url = e.xpath('//a[text()="下一章"]/@href') # 提取下一章节的链接。with open('斗罗大陆.txt', 'a', encoding='utf-8') as f: # 使用 'a' 模式以追加内容。title = title[0].strip() if title else '无标题'print(f"请求错误: {req_err}")

专访李飞飞：从清华附中高材生到阿里飞刀，一口井钻出「云原生」

数据库技术

11-13

1889

如果要用一个关键词来定义中国当下的消费时代，“双11”是再贴切不过了。从2009年11月起，它只花了十年的时间，就从一个只有27家商户参与的打折日，变成了一个全民狂欢的消费节，2019年已经有超过18万家品牌参加，累计成交额更是高达2684亿元。每年的双11，都是互联网的流量洪峰。面对逐年攀升的成交额数据，到底是什么作为支撑呢？阿里巴巴集团副总裁、阿里云智能事业群数据库产品事业部总裁、达摩院数据库与存储实验室负责人李飞飞在新智元专访中透露，去年双11交易峰值达到了每秒55万笔，而每笔交易

python：爬取完整版斗罗大陆并保存

weixin_62605218的博客

05-01

338

可以爬标题，文本内容，用了一个报错防止网页404，存到记事本里。

python爬取整本小说源代码实现