找了当时正在看的一本小说(《嫁给男主他爸爸》)的开始了处理。
这本小说当时还是晋江首页的热门推荐,虽然名字很一言难尽。
本来想爬晋江,但是没成功,改成了“看毛线小说网”里面的这本小说。
代码参考:
https://blog.csdn.net/c406495762/article/details/78123502
在这个基础上改动了。
一、网页分析
要爬的网址是:
https://www.kanmaoxian.com/51/51495/9432900.html
要爬的,就是里面的这些黑色文字。
按F12(Chrome)看下这些文字都在哪里。
如图所示,标题在h2标签,文字在class为“yd_text2”的div里面。
打开下源码
编码语言是GBK(而不是UTF-8!)
GBK编码专门用来解决中文编码的,是双字节的。
UTF-8 编码是用以解决国际上字符的一种多字节编码。
所以这种中文小说网站好多都是GBK。
点开整个小说页面,发现目录跳转是在class为ml_main的section里面的dl标签的dd标签。
二、代码书写
先发起请求
import requests
if __name__ == '__main__':
target = 'https://www.kanmaoxian.com/51/51495/9432900.html'
req = requests.get(url