Python爬虫入门学习实践——爬取小说

最新推荐文章于 2024-08-07 09:00:00 发布

置顶

知鱼栏

最新推荐文章于 2024-08-07 09:00:00 发布

阅读量9.8k

点赞数 67

分类专栏：爬虫文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/qq_45279235/article/details/111696618

版权

本文介绍了一个Python爬虫项目，用于抓取小说网站的数据。通过观察和分析，确定了目标网站是静态的，可以使用requests和re库进行数据获取。实现了爬取小说目录、章节内容，并进行了数据清洗，最终将数据保存到txt文件。通过词云可视化分析了爬取内容，加深了对数据挖掘和分析的理解。

摘要由CSDN通过智能技术生成

前言

本学期开始接触python，python是一种面向对象的、解释型的、通用的、开源的脚本编程语言，我觉得python最大的优点就是简单易用，学习起来比较上手，对代码格式的要求没有那么严格，这种风格使得我在编写代码时比较舒适。爬虫作为python的最为吸引我兴趣的一个方面，在学习之后可以帮助我们方便地获取更多的数据源，从而进行更深层次更有效的数据分析，获得更多的价值。

爬取小说思路

首先我们肯定是对小说网站进行观察，辨别小说网站是静态还是动态的，此次爬取的目标（这里发现网址与上次爬取时的网址有所变化），任一点开一本小说的任一章节通过F12的Elements选项可以检查到文章内容存在于 div id=‘content’ 标签中，所以说爬取的目标是静态的。当然，有人会问，使用动态的Selenium可以爬取吗？答案是肯定的，当然网站是静态的我们就没有必要舍近求远的使用动态方法求得结果。
在这里插入图片描述
然后选取目标小说之后，点击小说目录页面，通过F12的Elements选项可以观察到小说所有章节的url都是有规则的。

爬取到所有章节的url之后保存，对获取的章节url进行完善之后在进入每一章节对标题和正文内容进行爬取，最后保存到txt文件当中。

功能模块实现

理清我们的思路之后，按照步骤一步一步完成功能。
1.使用request请求库和数据清洗匹配的re库

import requests
import re

re模块是python独有的匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，而正则表达式是对字符串进行模糊匹配，提取自己需要的字符串部分，他对所有的语言都通用。注意：（1）re模块是python独有的；（2）正则表达式所有编程语言都可以使用；（3）re模块、正则表达式是对字符串进行操作。

2.对目标网站发送url请求

s = requests.Session()
url = 'https://www.xsbiquge.com/96_96293/'
html = s.get(url)
html.encoding = 'utf-8'

3.对网站目录页查找所有章节的url

# 获取章节
caption_title_1 = re.findall(r'<a href="(/96_96293/.*?\.html)">.*?</a>',html.text)

4.对获取所有章节的url进行完善方便再次访问

for i in caption_title_1:
   caption_title_1 = 'https://www.xsbiquge.com'+i

5.对获取的每一张url进行访问寻找标题和正文内容

s1 = requests.Session()
r1 = s1.get(caption_title_1)
r1.encoding = 'utf-8'
 # 获取章节名#meta是head头文件中的内容，用这个获取章节名
name = re.findall(r'<meta name="keywords" content="(.*?)" />',r1.text)[0]
print(name)
#这里print出章节名，方便程序运行后检查文本保存有无遗漏
chapters = re.findall(r'<div id="content">(.*?)</div>',r1.text,re.S)[0]

在这里插入图片描述

6.对获取的正文内容进行清洗

  chapters = chapters.replace(' ', '')
  chapters = chapters.replace('readx();', '')
  chapters = chapters

最低0.47元/天解锁文章

知鱼栏

关注

67
点赞
踩
185

收藏

觉得还不错? 一键收藏
36
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录