python爬虫爬取小说

最新推荐文章于 2024-04-18 13:54:36 发布

あ许�babyざ

最新推荐文章于 2024-04-18 13:54:36 发布

阅读量4k

点赞数 8

文章标签： python html xpath

本文链接：https://blog.csdn.net/fuyao2209/article/details/105622395

版权

文章目录

1.请求服务器
- 1.1分析网页
2获取第一章内容
3.爬取首页所有链接
- 3.1封装函数的方法
- 3.2爬取首页所有链接
4、爬取所有章节

1.请求服务器

1.1分析网页

在这里插入图片描述

请求服务器之前要先看一下这个网页的构造，我们可以看到它的信息全部都是通过html加载出来的，一个url 对应一个章节，所以我们只需要提取到该小说目录的所有链接就可以获取到每个章节的内容了。

2获取第一章内容

2.1获取html文件

代码：

# 导入包
import requests
url = "http://www.shuquge.com/txt/5809/14765892.html"
reponse = requests.get(url)
print (reponse.text)

结果：
在这里插入图片描述
我们可以看到获取的内容中文字全部是乱码的，需要自己进行解码。

2.2解码

万能的解码方式，可以对付大多数的乱码问题。
代码：

#解码
reponse.encoding = reponse.apparent_encoding
print (reponse.text)

结果:
在这里插入图片描述
已经对乱码的地方进行了解码。

2.3提取并保存信息

xpath提取信息。
在这里插入图片描述
代码：

# 提取信息
from lxml import etree
#解析
etree_html = etree.HTML(reponse.text)
#提取标题
title = etree_html.xpath('//*[@id="wrapper"]/div[4]/div[2]/h1/text()')
print (title)
#提取内容
content = etree_html.xpath('//*[@id="content"]//text()') #现在还是数组形式，文本，字符串
text =

最低0.47元/天解锁文章

あ许�babyざ

关注

8
点赞
踩
62

收藏

觉得还不错? 一键收藏
4
评论
python爬虫爬取小说

文章目录1.请求服务器1.1分析网页2获取第一章内容2.1获取html文件2.2解码2.3提取并保存信息2.4写入txt3.爬取首页所有链接3.1封装函数的方法3.2爬取首页所有链接4、爬取所有章节1.请求服务器1.1分析网页请求服务器之前要先看一下这个网页的构造，我们可以看到它的信息全部都是通过html加载出来的，一个url 对应一个章节，所以我们只需要提取到该小说目录的所有链接就可以...
复制链接

扫一扫