python爬虫之爬取起点中文网小说

最新推荐文章于 2024-01-13 13:02:45 发布

qifan_maker

最新推荐文章于 2024-01-13 13:02:45 发布

阅读量5.5k

点赞数 4

分类专栏： python 文章标签： python html http

本文链接：https://blog.csdn.net/python_qifan/article/details/107255120

版权

本文介绍了如何使用python爬虫从起点中文网抓取小说信息，涉及urllib.request和lxml.etree库，通过设置请求头、解析网页获取章节链接和标题，最终将文章内容保存为txt文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python爬虫之爬取起点中文网小说

hello大家好，这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序，这篇文章的灵感来源于本人制作的一个项目：~~电脑助手~~ 启帆助手
在这里插入图片描述
⬆是项目的部分源码

准备工作

用到的库有：

urllib.request
lxml.etree

代码分析

第一步：导入要用到的库

from urllib import request
from lxml import etree

2.第二步:设置请求头及小说网址(这里的网址以作者写的一本为例)

header = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url="https://book.qidian.com/info/1020546097"

3.第三步：爬取每个章节的链接、标题，并解析

req = request.Request(url, headers=header)
html = request.urlopen(req).read().decode('utf-8')
html = etree.HTML(html)
Lit_tit_list = ht

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qifan_maker

关注关注

4
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Python爬虫实战】起点小说网小说信息爬取（详细教程 | 高效抓取与数据存储）

2201_76125261的博客

04-29

920

本文详细介绍了如何使用Python爬取起点小说网的小说信息，包括基本的爬虫技术、页面分析、数据提取及存储方法。通过合理的优化策略，可以提高爬虫的效率与稳定性。未来，我们可以扩展爬虫功能，抓取更多字段的信息，分析小说的趋势，甚至进行深度数据挖掘和推荐系统的开发。

【python实战】爬取起点中文网自制小说阅读器

热门推荐

公号：一条coding

06-20

1万+

像听喜马拉雅一样听小说

参与评论您还未登录，请先登录后发表或查看评论

python爬取起点中文网小说_爬虫实战——起点中文网小说的爬取

weixin_39603327的博客

11-29

2917

本次实战目标是爬取一本名叫《大千界域》的小说，本次实战仅供交流学习，支持作者，请上起点中文网订阅观看。点击检查，获取页面的html信息，我发现每一章都对应一个url链接，故我们只要得到本页面html信息，然后通过Beautifulsoup，re等工具，就可将所有章节的url全部得到存成一个url列表然后挨个访问便可获取到所有章节内容，本次爬虫也就大功告成了！按照我的想法，我用如下代码获取了页面ht...

python爬取起点中文网小说

weixin_42340241的博客

01-31

1088

python爬取起点中文网小说完整代码： import requests from lxml import etree header = { 'User-Agent':'Mozilla/5.0(Macintosh;Inter Mac OS X 10_13_3) AppleWebkit/537.36 (KHTML,like Gecko)' ...

Python简单爬取起点中文网小说（仅学习）

Sakuyo的弼码温生活

01-24

7812

目录前言一、爬虫思路二、使用步骤1.引入库2.读取页面3.分析HTML3.从标签中取出信息4.爬取正文总结前言实习期间自学了vba，现在开始捡回以前上课学过的python，在此记录学习进程本文内容仅用于学习，请勿商用一、爬虫思路无需登录的页面只需要用到简单爬虫，获取小说目录、通过目录获取小说正文即可。二、使用步骤 1.引入库代码如下（示例）： import requests,sys from bs4 import BeautifulSoup 2.读取页面代码如下（示例）： targe

爬去起点中文网小说

weixin_51662537的博客

02-03

1395

标题爬取《起点》中文网 免费小说

爬虫练习-爬取起点中文网小说信息

莫莫先生的博客

12-15

6114

爬取起点中文网全部小说基本信息，小说名、作者、类别、连载\完结情况、简介，并将爬取的数据存储与EXCEL表中

Python爬虫之爬取起点中文网

weixin_43493853的博客

05-21

6368

python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...

weixin_39976748的博客

11-24

738

前言：爬取起点中文网全部小说基本信息，小说名、作者、类别、连载\完结情况、简介，并将爬取的数据存储与EXCEL表中环境：Python3.7PyCharmChrome浏览器主要模块：xlwtlxmlrequeststime起点中文网首页及所需信息如下：分析请求的网页http://a.qidian.com/? page=1#第一页http://a.qidian.com/? page=2#第二页http...

爬取起点中文网的小说

weixin_43716908的博客

11-23

684

运行无反应，也不报错，啥毛病?? import xlwt import requests from lxml import etree import time all_info_list=[] def get_info(url): html=requests.get(url) selector=etree.HTML(html.text) infos=selector.xp...

python爬取起点小说_Python简单爬取起点中文网小说（仅学习）

weixin_28707365的博客

02-10

3058

前言实习期间自学了vba，现在开始捡回以前上课学过的python，在此记录学习进程本文内容仅用于学习，请勿商用一、爬虫思路无需登录的页面只需要用到简单爬虫，获取小说目录、通过目录获取小说正文即可。二、使用步骤1.引入库代码如下(示例)：import requests,sysfrom bs4 import BeautifulSoup2.读取页面代码如下(示例)：target = 'https://b...

爬虫实战——起点中文网小说的爬取

banjianmu3630的博客

08-08

3623

　　首先打开起点中文网，网址为：https://www.qidian.com/ 　　本次实战目标是爬取一本名叫《大千界域》的小说，本次实战仅供交流学习，支持作者，请上起点中文网订阅观看。　　我们首先找到该小说的章节信息页面，网址为：https://book.qidian.com/info/3144877#Catalog 　　　　点击检查，获取页面的html信息，我发...

第4期-通过起点中文网爬取小说

我是瞎老弟

09-07

4664

起点中文网的历史比较悠久，一般来说，新的小说和古老的小说的格式恐怕是不太一样的，甚至vip章节和普通章节也是不一样的，因此，我们就尽量挑选最新的小说研究一下。首先是排行榜的地址 https://www.qidian.com/rank/hotsales/ 直接通过requests发起请求，就可以获得所有的数据，没有任何的反爬措施，可以说，起点是到目前为止见到过的最友好的网站，轻松就可以拿到排行榜数据。然后我们选择当前最热门的小说《大奉打工人》 https://book.qidian.com/

Python之起点中文网爬虫

qq_45513553的博客

01-28

916

Python之起点中文网爬虫注：请勿用于其他用途，仅供学习使用 import requests import re import os from lxml import etree head = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) " ...

python爬虫---起点中文网免费小说爬取下载-实战项目

最新发布

tmyzxy1314的博客

01-13

3814

python爬虫---起点中文网免费小说爬取下载-实战项目

python爬取vip小说章节_python 爬取起点小说vip章节（失败）

weixin_39624705的博客

11-20

6433

今天心血来潮，想爬取起点vip小说章节，花费了足足0.27大洋后，悟出来一个人生道理，这个应该是爬不下来。但是这0.27大洋也教会了我两个知识点。1.服务器只会响应客户端的请求，不会主动给客户端发送信息例如我爬取的这一章vip章节image.png客户端就会一直向服务器发送checkStatus?_csrfToken=w7RePr18qXzxByPdIn0h7iQtII0AC4z8oPMIXioz...

Python爬虫实战—起点小说

qq_53336761的博客

04-15

1万+

具体步骤包括搜索小说、获取小说章节链接、获取章节内容和保存小说内容。打开起点小说网站，搜索要爬取的小说，进入小说的阅读页面析页面结构，获取小说的每个章节的链接，通过网络请求获取每个章节的内容解析章节内容，提取出小说正文将小说正文保存到本地文件中。我们要爬取的是起点小说网站的小说内容，因此我们需要先找到小说的阅读页面，然后通过分析页面结构和网络请求，获取小说的章节内容。我们可以通过搜索小说名称，进入小说的阅读页面，然后分析页面结构，获取小说的章节链接。keyword = '斗破苍穹'# 获取小说章节链接。

python中文_教你用python抓取起点中文网的免费小说

weixin_39892842的博客

11-21

311

有网友留言问怎么用python抓取小说，今天小编就给大家分享一下用python抓取起点中文网的免费小说教程，用到的库有urllib2、BeautifulSoup，下面就来看看吧！(关注并私信我python，给你发价值万元的python学习教程。)库urllib2模拟http请求获取htmlBeautifulSoup根据选择器获取dom结点,可查看css选择器抓取逻辑1.查看起点免费小说列表：htt...

Python爬虫的起点，一文轻松入门

Python大本营的博客

07-09

3110

作者 | 猪哥来源 | 裸睡的猪（ID：IT--Pig）【导读】第一章主要讲解爬虫相关的知识如：http、网页、爬虫法律等，让大家对爬虫有了一个比较完善的了解和一些题外的...