Python 爬虫书籍爬取实例

HPUJQT

已于 2022-08-18 18:34:00 修改

阅读量2.3k

点赞数 3

分类专栏： Python

于 2022-08-17 07:57:28 首次发布

本文链接：https://blog.csdn.net/beichuanshangren/article/details/126377565

版权

python 爬虫开发语言

网页文字爬取，以爬取整本书籍为例。

一、步骤

①首先，获取目录页的h1（小说名）作为文件夹名并创建文件夹。

#设置存储文件夹
FName = text1.findAll('h1')[1].text
if not os.path.exists(FName):
    os.mkdir(FName)

②通过要获取小说的目录页，爬取每个章节的链接

#目录下各章节链接获取
t = '<a style="" href="(.*?)">'
AllUrl= re.findall(t, response.text)

③获取每个章节下的文字。章节名作为存储的txt名，并把对应文字存入。

注意：txt存储存在文件名存在格式问题。故：

 #判断存储文件名类型，去除不符合条件文件名
    for NoName in ["?","/","~","*","<",">",":","|"]:
        if(fileName[-1]==NoName):
            fileName=fileName[0:len(fileName)-1]

二、完整代码

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HPUJQT

关注关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python 爬取电子书_利用Python3爬取下载bookset网站的kindle电子书

weixin_29973493的博客

12-29

362

突然间发现这个网站，可以下载很多kindle电子书。观摩了下，和前段时间刚写的爬取头条有点类似。该网站链接首页：https://bookset.me/，这次爬取排行榜链接：https://bookset.me/?rating=douban，打开观察发现排行榜其实真正分页规则是https://bookset.me/page/num?rating=douban，其中num代表页数。具体代码如下：#-*...

python爬取电子书

pipipipik的博客

09-19

8283

最近在学习python的爬虫知识，所以找了一些小说网站爬取电子书练练手本次爬取的是顶点小说网站的斗破苍穹，好久没看了，爬取来稳固一下以前的经典小说。用到的python模块有requests，sys，这是系统自带的不需要下载，还有就是BeautifulSoup，这个主要对html的元素做处理的强大模块不多说了，上代码下面准备一些变量，比如我们要爬取的小说链接，章节的数量，章节名等等 def...

1 条评论您还未登录，请先登录后发表或查看评论

第103篇Python：Python爬虫系列之书籍爬取，细节拉满

五包辣条的博客

04-11

2156

不知不觉写了有103篇博文了，辣条以后尽量给大家带上编号，这样方便大家后续查阅，毕竟很多人都是放在收藏夹里面起灰，方便你们后续查找的话你们直接看编号就简单多了。

Python爬取小说教程详解

最新发布

weixin_42340721的博客

08-07

1636

免责声明：1、本项目爬取的网站数据仅用于学习交流目的，不用于任何商业用途。2、我们尊重原网站的版权和知识产权，不会对爬取的数据进行任何形式的篡改、传播或用于非法用途。3、爬取行为严格遵守我国相关法律法规，如有侵犯原网站权益，请及时与我们联系，我们将立即停止爬取行为并删除相关数据。4、本项目不对因使用爬取数据导致的任何损失或损害承担责任。5、请使用者遵守本免责声明，如有违反，后果自负。

Python爬虫入门教程 11-100 行行网电子书多线程爬取

weixin_30420305的博客

12-25

236

行行网电子书多线程爬取-写在前面最近想找几本电子书看看，就翻啊翻，然后呢，找到了一个叫做周读的网站，网站特别好，简单清爽，书籍很多，而且打开都是百度网盘可以直接下载，更新速度也还可以，于是乎，我给爬了。本篇文章学习即可，这么好的分享网站，尽量不要去爬，影响人家访问速度就不好了 http://www.ireadweek.com/ ,想要数据的，可以在我博客下面评论，我发给你，QQ，...

python爬出书籍下载-使用Python爬虫下载电子书

weixin_37988176的博客

10-29

935

（Photo byAaron BurdenonUnsplash）这两天将半年前写的爬虫代码重构了一下，本来以为要不了多久，结果前前后后花了我将近4个小时的时间。无力吐槽！半年前的代码是一个面向过程的处理，几个函数顺序执行，最终慢悠悠地把PDF生成出来，功能都齐全，但是可读性和拓展性极差。现在全部改为面向对象处理，将requests.Session操作剥离出来作为Crawler类，将解析网页的操作剥...

python爬虫爬取超清壁纸代码实例

09-18

在实际应用中，通过编写Python爬虫来爬取超清壁纸，不仅可以达到满足个人使用需求的目的，同时也是一个练习编写爬虫代码和学习网络数据处理的绝佳机会。通过上述知识点的掌握和应用，可以实现更高效、功能更强大的...

python爬虫自学习1+京东商品爬取实例

weixin_51396863的博客

11-19

1万+

自学习笔记序安装第三方库序最近突然觉得有必要学一下python，翻开大一的Python书发现忘的那是一干二净，想学一下爬虫，只好重头再来，找了个教程一看啥都看不懂，还是老老实实从零开始吧。安装第三方库爬虫有一个库叫 requests 说出来不怕丢人我好像连安装第三方库都不会，算了一步一步来打开 cmd ，因为我的Python是装在D盘的，哪怕以前学过，我还是忘得一干二净按照图片操作即可得到想安装的第三方库 ...

Python爬取当当、京东、亚马逊图书信息代码实例

09-21

Python爬虫技术是用于自动化获取网页数据的一种方法，尤其在数据挖掘、数据分析等领域广泛应用。本文将探讨如何使用Python来爬取当当、京东、亚马逊这三个知名电商平台上的图书信息。首先，要实现这个功能，我们...

分享Python7个爬虫小案例（附源码）_爬虫实例

热门推荐

xiaolinyui的博客

02-27

14万+

在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。

用python写网络爬虫书本源码

12-15

1.《用python写网络爬虫》这本书各个章节的源码。 2.这本书爬取的网站的源码，这个网站的框架是web2py,可以在自己本地架设一个网站，也能更好的了解这本书。

Python爬取豆瓣图书信息

12-19

爬取指定标签List下评分8.5分以上的图书信息，包括书名、作者、评分、简介，并保存到excel，以标签分类，放到不同的sheet中。核心代码： title= book.find_element_by_xpath('.//a[1]').text #获取书名 zuozhe= book.find_element_by_xpath('.//div[1]').text.split('/',1)[0] jianjie= book.find_element_by_xpath('.//p[1]').text #获取简介 worksheet.write(i,0,fenshu); #分数写入第i行的第一列 worksheet.write(i,1,title); #书名写入第i行的第二列 worksheet.write(i,2,zuozhe); #作者写入第i行的第三列 worksheet.write(i,3,jianjie); #简介写入第i行的第四列

Python 爬取书籍

aibeng2705的博客

12-21

153

... import requests from bs4 import BeautifulSoup def gethtml(url,h): r = requests.get(url,headers=h) r.raise_for_status() r.encoding = r.apparent_encoding return r.t...

Python一键爬取你所关心的书籍信息_python douban subject_search(1)

2401_84584338的博客

05-02

470

涉及字典的组合，查了一下可以用d=dict(d,**dw)，其中d是旧字典，dw是要加到d里的新字典，更简便的方式是用d.update(dw)函数，下面的代码就是用的update的。当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

【Python实战】Python采集图书信息

z099164的博客

12-09

1547

本文主要介绍了parsel库的实战技巧，包括如何采集数据、发送请求和获取数据等方面的内容。通过实战，我们可以学习到parsel库的强大功能，包括对HTML和XML的解析、XPath和CSS Selector的使用以及正则表达式提取的功能。

Python基础之爬取某瓣图书信息

绳锯木断，水滴石穿，专心写文，无问西东！！！

07-28

2049

概述所谓爬虫，就是帮助我们从互联网上获取相关数据并提取有用的信息。在大数据时代，爬虫是数据采集非常重要的一种手段，比人工进行查询，采集数据更加方便，更加快捷。刚开始学爬虫时，一般从静态，结构比较规范的网页入手，然后逐步深入。今天以爬取某瓣最受关注图书为例，简述Python在爬虫方面的初步应用，仅供学习分享使用，如有不足之处，还请指正。涉及知识点如果要实现爬虫，需要掌握的Pyhton相关知识点如下所示： requests模块：requests是python实现的最简单易用的HTTP库，建议爬虫使

Python爬虫获取电子书资源实战

libaiup的博客

03-28

2278

最近在学习Python，相对java来说python简单易学、语法简单，工具丰富，开箱即用，适用面广做全栈开发那是极好的，对于小型应用的开发，虽然运行效率慢点，但开发效率极高。大大提高了咱们的生产力。为什么python能够在这几年火起来，自然有他的道理，当然也受益于这几天大数据和AI的火。据说网络上80%的爬虫都是用python写的，不得不说python写爬虫真的是so easy。基本上一个不太复杂的网站可以通过python用100多行代码就能实现你所需要的爬取。

使用python爬取小说

FengF2017的博客

02-09

1万+

使用python爬虫爬取小说喜欢看网络小说的朋友们，经常需要从网上下载小说。有些人不想向正版网页交钱，也不想注册其他网站的账号，那么对于某些比较冷门的小说或者是正在更新的小说来说，就很难下载到txt或者其他格式的小说。我就是不想花太多时间找冷门小说的下载资源，因此稍微学习了python的爬虫知识。新建scrapy爬虫项目 scrapy是python的爬虫框架。使用以下语句安装scra...