爬虫新手入门(二):爬取一本言情小说的内容

本文介绍了如何作为爬虫新手入门,以爬取网络小说《嫁给男主他爸爸》为例,详细讲解了网页分析和代码书写过程。首先分析了小说页面的HTML结构,指出文字位于class为'yd_text2'的div内,编码为GBK。接着展示了发起请求和提取文本的代码,处理了空格和br标签,但全文爬取遇到问题,留待后续学习解决。
摘要由CSDN通过智能技术生成

找了当时正在看的一本小说(《嫁给男主他爸爸》)的开始了处理。
这本小说当时还是晋江首页的热门推荐,虽然名字很一言难尽。
本来想爬晋江,但是没成功,改成了“看毛线小说网”里面的这本小说。
代码参考:

https://blog.csdn.net/c406495762/article/details/78123502

在这个基础上改动了。

一、网页分析

要爬的网址是:

https://www.kanmaoxian.com/51/51495/9432900.html

在这里插入图片描述
要爬的,就是里面的这些黑色文字。
按F12(Chrome)看下这些文字都在哪里。
在这里插入图片描述
如图所示,标题在h2标签,文字在class为“yd_text2”的div里面。

打开下源码
在这里插入图片描述
编码语言是GBK(而不是UTF-8!)
GBK编码专门用来解决中文编码的,是双字节的。
UTF-8 编码是用以解决国际上字符的一种多字节编码。
所以这种中文小说网站好多都是GBK。
在这里插入图片描述
点开整个小说页面,发现目录跳转是在class为ml_main的section里面的dl标签的dd标签。

二、代码书写

先发起请求

import requests
if __name__ == '__main__':
    target = 'https://www.kanmaoxian.com/51/51495/9432900.html'
    req = requests.get(url
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值