python爬虫——爬起点中文网小说

最新推荐文章于 2024-08-03 14:18:54 发布

yaoUyao

最新推荐文章于 2024-08-03 14:18:54 发布

阅读量2.1w

点赞数 8

文章标签： python 爬虫起点中文网小说

本文链接：https://blog.csdn.net/weixin_41796207/article/details/80853797

版权

本文介绍了如何使用Python爬虫爬取起点中文网的免费小说。通过分析网页结构，发现可以通过目录页获取所有章节URL，然后利用GET请求获取每一章的内容。最终在Jupyter中实现代码，并在MongoDB中展示了爬取结果。

摘要由CSDN通过智能技术生成

（一）项目目标

本次要练习的目标时起点中文网里面的免费小说。

1. 如下图，找到免费小说的目录：

2. 点击更多后，随便找一本免费小说打开：

可以看到，该小说一共有83章，这就是本次目标。

（二）网页分析

1. 在目录页中点击一章，进入阅读页面，并同时检查网络，查看内容来源。

请注意下图中标注的三个部分：

2. 这样，我们找到了获取内容的请求。下面仔细分析该请求：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yaoUyao

关注关注

8
点赞
踩
65

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫编程思想（48）：项目实战：抓取起点中文网的小说信息

一个被知识诅咒的人

10-09

857

本文会利用requests库抓取起点中文网上的小说信息，并通过XPath提取相关的内容，最后将经过提取的内容保存到Excel文件中。本例需要使用第三方的xlwt库，该库用来通过Python操作Excel文件，需要使用下面的命令安装xlwt库。 pip install xlwt 使用xlwt库非常简单，首先需要创建一个workbook，相当于一个Excel文件，然后在workbook中添加若干个Sheet，接下来在每一个Sheet中的指定单元格（Cell）添加文本，最后使用...

python3 [入门基础实战] 爬虫入门之爬取豆瓣阅读中文电子书[热门排序]

snake_son的博客

06-25

1586

稍微总结一下：今天爬的稍微有点打击士气了，但是还是学到了不少东西，告诉我们，要学会自己去百度，谷歌答案，自己去思考，不要依赖一些技术交流QQ群，很多都是水群的，真的帮助你的是很少的。重点在这里：今天学了将爬取的数据存取到txt ,.xlsx文件，也就是txt文件跟excel 表格中，又一次加强了re模块的正则表达式，先贴结果图：这次爬取的是贴代码：我是比较习惯先贴上代

7 条评论您还未登录，请先登录后发表或查看评论

python 爬虫实战 | 下载一本小说

生物信息学专栏(BioMooc)

06-12

628

最难得就是中间匹配部分，要针对每个网站的内容特点和要获取的信息综合选择合适的匹配策略。

python爬取起点中文网小说_爬虫实战——起点中文网小说的爬取

weixin_39603327的博客

11-29

2591

本次实战目标是爬取一本名叫《大千界域》的小说，本次实战仅供交流学习，支持作者，请上起点中文网订阅观看。点击检查，获取页面的html信息，我发现每一章都对应一个url链接，故我们只要得到本页面html信息，然后通过Beautifulsoup，re等工具，就可将所有章节的url全部得到存成一个url列表然后挨个访问便可获取到所有章节内容，本次爬虫也就大功告成了！按照我的想法，我用如下代码获取了页面ht...

Python爬虫详解：原理、常用库与实战案例！

最新发布

2301_78217634的博客

08-03

2139

【点击这里】

Python简单爬取起点中文网小说（仅学习）

Sakuyo的弼码温生活

01-24

7290

目录前言一、爬虫思路二、使用步骤1.引入库2.读取页面3.分析HTML3.从标签中取出信息4.爬取正文总结前言实习期间自学了vba，现在开始捡回以前上课学过的python，在此记录学习进程本文内容仅用于学习，请勿商用一、爬虫思路无需登录的页面只需要用到简单爬虫，获取小说目录、通过目录获取小说正文即可。二、使用步骤 1.引入库代码如下（示例）： import requests,sys from bs4 import BeautifulSoup 2.读取页面代码如下（示例）： targe

python爬虫---起点中文网免费小说爬取下载-实战项目

tmyzxy1314的博客

01-13

2202

python爬虫---起点中文网免费小说爬取下载-实战项目

python爬虫，爬起点小说网小说

weixin_43894586的博客

12-28

1205

说明哦！不能爬vip章节只能爬可见的，@_@技术不够__ 首先就是python模块： import requests # 这个就是爬虫模块哦 from lxml import etree #是一个python库 import os #这个是创建文件夹的爬的小说要放文件中说明哦，如果这些模块你都没有安装那我教你一个简单的方法，你把import requ...

python爬虫之数据提取Xpath（爬取起点中文网案例）

sjjsaaaa的博客

12-16

3016

Xpath 详细的Xpath介绍手册——> https://www.w3school.com.cn/xpath/index.asp 1.安装xpath. pip install lxml 2.安装谷歌XPath插件下载：chrome_Xpath_v2.0.2.crx 格式的文件。拖进插件即可。如果安装不成功，将后缀名改成.rar，解压以后再拖拽进去就可以使用了。效果图（减头所指的地方就可以打开XPath）： 3.介绍 Xpath是在一门在XML文档种查找信息的语言。XPath可用来在XM

python爬虫和数据可视化论文_Python爬虫之小说信息爬取与数据可视化分析

weixin_32515577的博客

01-12

3707

一、小说数据的获取获取的数据为起点中文网的小说推荐周榜的所有小说信息。源代码对所有想要获取的数据都有注释。http://dxb.myzx.cn/grandmal/#-*-coding:utf-8-*-"""CreatedonMonJan422:59:112021"""importrequestsfrombs4importBeautifulSoupimportos.p...

python分析并爬取起点中文网的章节数据，最后保存为txt文档

戏不能停啊的博客

09-20

1495

如题，分析起点中文网，并提取出来章节链接，保存为txt文档。代码仅供交流使用，请勿用作商业用途，如有违规，请联系删除一，分析 1.打开带有章节的链接，例如：（随便选的一篇文章） 2.打开浏览器的抓包工具f12（我用的是谷歌浏览器），点击页面的免费试读，因为页面是在一个页面跳转，不需要多开浏览器。抓到包会发现很杂乱，通过筛选会出现所需要的一些链接，这些链接一个个点击查看返回详情，最后发现那条蓝色链接是包含所有这篇小说的目录的。 3.可以发现这个是一个get包，变化的参数有两个。 4

python爬虫之爬取起点中文网小说

python_qifan的博客

07-11

5381

python爬虫之爬取起点中文网小说 hello大家好，这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序，这篇文章的灵感来源于本人制作的一个项目：电脑助手启帆助手 ⬆是项目的部分源码准备工作用到的库有： urllib.request lxml.etree 代码分析第一步：导入要用到的库 from urllib import request from lxml import etree 2.第二步:设置请求头及小说网址(这里的网址以作者写的一本为例) heade

【python】tkinter设置窗口图标_tkinter 图标

m0_60607536的博客

05-01

531

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。

Python爬虫学习——爬取小说章节

一大块肥皂的博客

12-01

4002

之前学了Python好久都没有用，感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习，巩固python的知识。爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习： Python3 网络爬虫（二）：下载小说的正确姿势（2020年最新版）_Jack-Cui-CSDN博客练习 - 爬取章节前面的爬虫基础部分就看大佬的上一篇博文，讲的非常棒： Python3 网络爬虫（一）：初识网络爬虫之夜探老王家（2020年最新版）_Jack-Cui-.

爬虫爬取小说内容

但行好事，莫问前程

02-27

2461

PS：我使用的环境是Spyder(python3.6) 大概思路：小说，章节，逐层爬取信息，在以小说名建立文件夹，以章节名为名建立.tex文件，将小说内容保存到文件中。 import requests from lxml import etree import os #设计模式---面向对象，继承，封装 class Spider(object): #函数功能：请求小说网站，拿到...

Python爬虫实战 | 爬取网络中的小说

大模型研究中心

09-21

3619

网络文学是新世纪我国流行文化中的重要领域，年轻人对网络小说更是有着广泛的喜爱。本文以抓取网络小说正文为例编写一个简单、实用的爬虫脚本。

python爬虫实战-爬取小说

快乐是一切的博客

12-19

4249

今天做一个爬虫练手的小实战：爬取顶点小说网的小说，实现下载到本地（虽然网站上本来就可以下载，不过还是自己写代码来有成就感嘛！）爬取网站进入官网后，点击元尊，就爬取这本书了。我们先把整个网页爬下来吧！ import requests url = r'https://www.booktxt.net/6_6453/' # 网站路径 # 伪装请求头 headers = { 'User-Ag...

小白初入爬虫的实例,爬取小说的某一章

donghengzi1的博客

01-11

1276

爬取纵横中文网的某篇小说的第一章内容本来本人在努力做课设，突然打开某一python教程，发现挺有意思的，就跟着试了一试，对代码进行了修改，自己尝试爬取了一章小说！本人也算是小白，刚入门，！对于代码理解不深入，可以保证的是代码尽量详细和正确！写下自己的心路历程，希望给大家带来帮助。 (个人浅显理解爬虫就是利用程序爬取网络页面的信息，它是根据网页地址(URL)爬取网页内容，而网页地址(URL)就是我们在浏览器中输入的网站链接。比如：https://www.baidu.com/，它就是一个URL。) 工具：

python爬虫——北京租房信息导入excel

05-17

以下是一个简单的 Python 爬虫实现，用于从北京租房信息网站上爬取租房信息并将其导入到 Excel 文件中。首先，我们需要安装以下 Python 库： - requests：用于发送 HTTP 请求和获取网页内容。 - Beautiful Soup：用于解析 HTML 和 XML 网页内容。 - openpyxl：用于操作 Excel 文件。可以使用 pip 命令进行安装： ``` pip install requests beautifulsoup4 openpyxl ``` 接下来，我们需要编写 Python 代码： ```python import requests from bs4 import BeautifulSoup from openpyxl import Workbook # 发送 HTTP 请求并获取网页内容 url = 'https://bj.zu.anjuke.com/fangyuan/p1/' response = requests.get(url) html = response.text # 使用 Beautiful Soup 解析网页内容 soup = BeautifulSoup(html, 'html.parser') houses = soup.select('.zu-itemmod') # 创建 Excel 文件并添加表头 wb = Workbook() ws = wb.active ws.append(['标题', '链接', '小区', '面积', '租金']) # 遍历租房信息并将其添加到 Excel 文件中 for house in houses: title = house.select('.zu-info h3 a')[0].text.strip() link = house.select('.zu-info h3 a')[0]['href'] community = house.select('.details-item')[0].text.strip() area = house.select('.details-item')[1].text.strip() price = house.select('.zu-side strong')[0].text.strip() ws.append([title, link, community, area, price]) # 保存 Excel 文件 wb.save('beijing_rent.xlsx') ``` 该爬虫程序将会从北京租房信息网站的第一页开始爬取租房信息，包括标题、链接、小区、面积和租金，并将其添加到 Excel 文件中。你可以根据需要修改代码以实现更多功能。