python爬虫简单实例-爬取17K小说网小说

最新推荐文章于 2024-06-24 18:45:00 发布

端木胥

最新推荐文章于 2024-06-24 18:45:00 发布

阅读量2.5k

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/weixin_42586373/article/details/104591737

版权

本文介绍了Python网络爬虫的基本流程，以17K小说网的《斩月》为例，展示了如何获取章节内容、章节标题和链接，并通过BeautifulSoup解析HTML文档，最后实现小说的完整爬取。

摘要由CSDN通过智能技术生成

什么是网络爬虫?

网络爬虫（Web Spider），又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。

爬虫流程

先由urllib的request打开Url得到网页html文档
浏览器打开网页源代码分析元素节点
通过Beautiful Soup或者正则表达式提取想要的数据
存储数据到本地磁盘或数据库（抓取，分析，存储）

简单实例

爬取17K小说网（https://www.17k.com/）中的一部小说《斩月》

获取章节内容

先看代码：

import requests
if __name__ == '__main__':
    target = 'https://www.17k.com/chapter/3062292/39084147.html'
    req = requests.get(target)
    req.encoding = req.apparent_encoding
    html = req.text
    print(html)

通过urllib的request打开Url得到网页html文档，apparent_encoding 属性是通过解析得到网页的编码方式，并且赋值给requests.encoding，就能保证打印出来的不是乱码格式的网页html文档。

不过有时候apparent_encoding属性解析出来的是它所认为正确的编码格式，但是和原编码格式不一致，最终导致乱码问题。因此可以现在网页端知道网页编码格式，再通过requests.encoding直接赋值进行转码。就不会出现乱码，如 requests.encoding=‘utf-8’

通过此方法得到网页文档，找到文章内容所对应的div：
在这里插入图片描述

再通过 BeautifulSoup 提取想要的内容：

最低0.47元/天解锁文章

端木胥

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
2
评论
python爬虫简单实例-爬取17K小说网小说

什么是网络爬虫?网络爬虫（Web Spider），又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。爬虫流程先由urllib的request打开Url得到网页html文档浏览器打开网页源代码分析元素节点通过Beautiful Soup或者正则表达式提取想要的数据存储数据到本地磁盘或数据库（抓取，分析，存储）简单实例爬取17K小说网（https://www...
复制链接

扫一扫

专栏目录