爬虫新手入门（二）：爬取一本言情小说的内容

最新推荐文章于 2022-06-17 14:18:20 发布

生命不息，编程不亡

最新推荐文章于 2022-06-17 14:18:20 发布

阅读量423

点赞数

本文链接：https://blog.csdn.net/weixin_43552965/article/details/102502715

版权

本文介绍了如何作为爬虫新手入门，以爬取网络小说《嫁给男主他爸爸》为例，详细讲解了网页分析和代码书写过程。首先分析了小说页面的HTML结构，指出文字位于class为'yd_text2'的div内，编码为GBK。接着展示了发起请求和提取文本的代码，处理了空格和br标签，但全文爬取遇到问题，留待后续学习解决。

摘要由CSDN通过智能技术生成

找了当时正在看的一本小说（《嫁给男主他爸爸》）的开始了处理。
这本小说当时还是晋江首页的热门推荐，虽然名字很一言难尽。
本来想爬晋江，但是没成功，改成了“看毛线小说网”里面的这本小说。
代码参考：

https://blog.csdn.net/c406495762/article/details/78123502

在这个基础上改动了。

一、网页分析

要爬的网址是：

https://www.kanmaoxian.com/51/51495/9432900.html

在这里插入图片描述
要爬的，就是里面的这些黑色文字。
按F12（Chrome）看下这些文字都在哪里。

如图所示，标题在h2标签，文字在class为“yd_text2”的div里面。

打开下源码
在这里插入图片描述
编码语言是GBK（而不是UTF-8!）
GBK编码专门用来解决中文编码的，是双字节的。
UTF－8 编码是用以解决国际上字符的一种多字节编码。
所以这种中文小说网站好多都是GBK。

点开整个小说页面，发现目录跳转是在class为ml_main的section里面的dl标签的dd标签。

二、代码书写

先发起请求

import requests
if __name__ == '__main__':
    target = 'https://www.kanmaoxian.com/51/51495/9432900.html'
    req = requests.get(url

最低0.47元/天解锁文章

生命不息，编程不亡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫