python爬虫抓取晋江网一篇小说

最新推荐文章于 2025-03-03 19:53:09 发布

Gavin_CHEN929

最新推荐文章于 2025-03-03 19:53:09 发布

阅读量1.3w

点赞数 8

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/Gavin_CHEN929/article/details/53859231

版权

本文介绍了使用Python的requests和BeautifulSoup库爬取晋江网一篇小说的过程，包括获取免费章节标题和链接，以及正文内容的抓取。虽然爬取思路简单，但小说正文的正则匹配相对复杂。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这几天学了python的requests库和BeautifulSoup,闲来爬取晋江网一篇小说。

1.过程分析：

这里写图片描述

（1）获取全部免费章节的标题和链接（前23章），后面的章节是vip收费，没有账号充值无法爬取
（2）进入每章的链接爬取小说正文
其实爬取得思路比较简单，稍微复杂的是小说正文的正则匹配

2.代码实现：

# coding: utf-8

import requests
from bs4 import BeautifulSoup as bs
import re

start_url = "http://www.jjwxc.net/onebook.php?novelid=1857985"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Gavin_CHEN929

关注关注

8
点赞
踩
45

收藏

觉得还不错? 一键收藏
6
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python实战项目12：采集晋江文学城小说数据

lyccomcn的博客

05-30

1746

本次数据采集的目标是晋江文学城小说数据，采集的流程包括寻找数据接口、发送请求获取响应、解析数据和持久化存储，先来看一下数据情况，完整代码附后：

图书信息抓取：使用Python爬虫获取书籍详细信息（书名、作者、评分、评论等）的完整指南

2201_76125261的博客

02-27

930

通过本篇博客，我们详细介绍了如何使用Python爬虫抓取图书网站上的书籍信息，包括书名、作者、评分、评论等。我们使用了`requests`和`BeautifulSoup`进行静态网页的抓取，使用`Selenium`进行动态网页的抓取，并通过`pandas`对数据进行了存储和处理。抓取到的数据可以为进一步的数据分析和机器学习模型提供支持。

6 条评论您还未登录，请先登录后发表或查看评论

scrapy爬取晋江免费小说（章节）+ cookie爬vip章节

最新发布

2301_79703609的博客

03-03

544

2.对每个路径的小说内容爬取并对数据格式进行处理。1.将路径url采集出来。

晋江vip文cookies获取

weixin_44517502的博客

12-29

486

此处需要手动输入账号密码登录，也可以通过代码自动填充登录表单。# 根据实际情况填写 chromedriver.exe 的路径。# 等待页面加载完成，可根据实际情况调整等待时间。# 登录后进入已购买的VIP小说页面。debug 代码，辅助人工登录。# 打开晋江文学城登录页面。# 获取cookies。

python使用requests和lxml爬取晋江小说的免费章节

weixin_42292586的博客

07-20

3742

使用python的reques和lxml中的etree，xpath的方式爬取晋江文学上的小说免费章节，最后合成txt文档

Python爬取晋江文学城积分总榜的小说标题、作者及标签

weixin_74021639的博客

05-13

1349

python爬虫晋江

python 小说云_python 爬虫入门之爬小说

weixin_39596720的博客

11-23

127

##第一步导包from bs4 import BeautifulSoupimport requestsimport sys##准备class downloder(object):def __init__(self):self.server = 'http://www.biqukan.com'self.target = 'http://www.biqukan.com/1_1094/'self.na...

python晋江爬虫_python爬虫之小说爬取

weixin_39713833的博客

11-23

1558

废话不多说，直接进入正题。今天我要爬取的网站是起点中文网，内容是一部小说。首先是引入库from urllib.request importurlopenfrom bs4 import BeautifulSoup然后将网址赋值html=urlopen("http://read.qidian.com/chapter/dVQvL2RfE4I1/hJBflakKUDMex0RJOkJclQ2.html")...

python爬虫实践--晋江小说书籍分析

qq_45886782的博客

03-12

1万+

python@ljr 初心：寒假在家看小说，看着看着想自己写，然后申了几次没过，打算把榜单文章拿来好好分析一下，做个高大上的词云看看方向什么的。但我不会爬虫，只听说过，就上网搜别人的代码，但是别人的代码不满足我的需求，我看不懂也改不了。 python爬虫实践凭着一口我也是程序人的志气（主要恰好学了python），自己去搜了怎么写爬虫，把视频看了一遍，过了下大概思路，然后看第二遍，注意一些细节，跟着一步一步地做自己的（主要是用他的思路和跟着写一点语句），最后就把晋江上我需要的数据搞出来了。（默默夸一句，b

使用Python抓取网站小说数据并保存

m0_73850645的博客

03-02

678

本文详细介绍了如何使用Python进行网页抓取，特别是如何从小说网站抓取章节内容并保存到本地文件中。通过介绍相关技术，如requests库用于发送HTTP请求，lxml库用于解析HTML，以及XPath用来提取特定的网页内容，本文为读者提供了一个实用的网页爬虫示例。

【Python】Python爬取小说标题及内容——晋江文学网

Li_Jiaqian的博客

05-11

1万+

1.在晋江文学网（http://www.jjwxc.net/）上选定一篇不需要会员付费的小说（http://www.jjwxc.net/onebook.php?novelid=2443908）；2.在目录页获取各章节名称以及各章内容的url；3.前往各章url获取文章内容，为了纯粹只获取内容，观察页面构局，使用正则表达式，筛选出需要的内容；4.开始爬取，并将内容写入txt文件中，屏幕更新下载进度。...

python晋江文学城数据分析（一）——爬虫（BeautifulSoup正则）

kpl_22b的博客

04-06

7288

回忆性文章，其实过程中遇到过很多问题和困难，但暂时只想起这些了。待改善的地方：1）爬取太慢，爬取250页花费近10个小时，看网上有多进程、多线程可以加快爬虫时间，之后有时间当学习改进；2）正则表达式不够精确，部分详情页爬取出来不是目的数据，因为错误的数据量不多，后续数据处理采取了直接删除的办法，之后可以在爬虫阶段尝试改进；

获取晋江优质小说（按章节数量选择、python多进程）

VFAing的博客

03-25

2315

使用工具获取xpath路径查看网页编码筛选依据一个重要的原因是如果这本小说写得不好的话，那么作者很可能没有更新动力，也就写不了太多章节。第二嘛小说章节太少多半是没写下去了或则情节太简单、设计不成熟。所以先用晋江的筛选工具筛选第一次，若然后留下的小说就可以用本部分代码选择章节数量超过设置数值的小说。步骤 1进入手机版，页面如下，复制url 2根据口味和一般这类小说的章节数量设置阈值比如我喜欢的《毒系女配修魔录》，章节213，我就把阈值设置为150. 3代码 #..

python爬取晋江小说简介_python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇...

weixin_39617669的博客

12-03

1514

知识就像碎布，记得“缝一缝”，你才能华丽丽地亮相。1.Beautiful Soup1.Beautifulsoup 简介此次实战从网上爬取小说，需要使用到Beautiful Soup。Beautiful Soup为python的第三方库，可以帮助我们从网页抓取数据。它主要有如下特点：1.Beautiful Soup可以从一个HTML或者XML提取数据，它包含了简单的处理、遍历、搜索文档树、修改网页元...

python爬取晋江_爬虫爬取晋江文学网总分榜

weixin_39989949的博客

11-20

1655

一、目的：爬取晋江文学网总分榜二、python爬取数据三、爬取在开始多出现了38号而且顺序内容不准确代码：import requestsfrom bs4 import BeautifulSoupimport bs4url="http://www.jjwxc.net/topten.php?orderstr=7&t=0"def getHtml(url):r=requests.get(url)r.ra...

python爬取晋江文学城_「天鹰文学网」著名小说网站《天鹰文学》宣布关站 - seo实验室...

weixin_29294597的博客

02-21

1187

天鹰文学网著名原创小说网站天鹰小说网(tywx.com.cn)经历了多次波折以后，宣布关站。让我们一起为这颗陨落的行星可惜。曾经一度与起点，逐浪，幻剑，晋江文学号称5大原创文学网站的天鹰因为自己管理不善，而日趋没落，最后不得不关停网站。留下一堆的遗憾，和网友深深的叹息。个人网站，小说网站，谁来唤起新的生命力。谁来拯救这些快消逝的精英。要收购的赶快去吧，在火焰熄灭之前。同时起家，同时发展的起点和...

基于网络爬虫和SpringBoot框架的晋江文学小说小型网站项目

weixin_45890771的博客

04-27

1909

基于网络爬虫和SpringBoot框架的晋江文学小说小型网站项目

用Python爬虫抓取豆瓣图书信息并优化数据库管理

这说明该文档或源代码包可能是一个完整的Python爬虫项目，用于从豆瓣网（一个知名的中文图书、电影和音乐社区）上抓取图书相关的信息。 ### 知识点一：Python语言在爬虫开发中的应用 - Python因为其简洁的语法和...