第四课、《爬取小说》_怎么查看python版本-CSDN博客

本文链接：https://blog.csdn.net/ht1216012825/article/details/105611043

爬取小说

1、准备工作
2、分析网页
3、爬取网页
4、筛选信息
5、保存为txt
- 1、存储路径的选择
- - 1、绝对路径：
  - 2、相对路径：
6、方法（重点）
7、查看

1、准备工作

和之前上过的课准备工作一致。

2、分析网页

1、打开网页

在这里插入图片描述

2、分析每一章节的链接

第一章：http://www.shuquge.com/txt/76621/14610060.html
第二章：http://www.shuquge.com/txt/76621/14610061.html
第三章：http://www.shuquge.com/txt/76621/14610062.html
…
最后一章：http://www.shuquge.com/txt/76621/14610968.html
可以看出网页翻页后只有标记出的地方发生了改变

3、分析小说内容路径

(1)点击方框处1，然后选取小说主要内容部分2，发现内容路径在3处
在这里插入图片描述
(2)检查链接
点开查看内容是否是小说

4、分析网页请求方式及代理

1、查看内容是否正确

在这里插入图片描述

2、请求方式

请求方式为get
在这里插入图片描述

3、代理

网站有反爬虫的情况下，可以使用代理来伪装浏览器，视情况来决定是否使用代理
在这里插入图片描述

3、爬取网页

1、查看代理是否正确

代码如下：

import requests
target_url = "http://www.shuquge.com/txt/76621/14610060.html"
requests.get(url=target_url)

运行结果如下：
在这里插入图片描述
输出为“200”说明没有错误，没有带入代理，网页没有反爬虫

将结果赋值给response，并以text格式输出查看；代码如下：

import requests
target_url = "http://www.shuquge.com/txt/76621/14610060.html"
response = requests.get(url=target_url)
print(response.text)

运行结果如下：
在这里插入图片描述
发现运行结果是一堆乱码

2、解码

在文本输出之前进行解码
解码的代码如下：

reponse.encoding = reponse.apparent_encoding

将其带入运行代码：
在这里插入图片描述
运行结果如下:

文字部分正常显示了

3、爬取每一章节小说的链接

(1)根据分析网页，分析小说每一章节路径，我们可以写一个for循环语句来爬取所有小说链接,但是发现小说的链接里只有后缀的数字，每一章节小说的前缀”http://www.shuquge.com/txt/514/“都是相同的，我们可以采用加法来爬取小说链接

index_html = requests.get(index_url).text    #文章首页链接
    index_etree = etree.HTML(index_html)  #请求
    dd = index_etree.xpath('/html/body/div[5]/dl/dd')
    for item in dd:
        href = "http://www.shuquge.com/txt/514/"+item.xpath('./a/@href')[0