《python爬取“书趣阁”小说》

最新推荐文章于 2024-07-12 19:06:42 发布

SunnyArkin

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量548

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/SunnyArkin/article/details/105614947

版权

文章目录

1、请求服务器
2、提取并保存信息
3、爬取所有链接及章节

爬取对象：书趣阁

1、请求服务器

1.1分析网页

同样的，爬取网页之前要先分析网页

1.2获取html文件

# 导入包
import requests
url = "http://www.shuquge.com/txt/514/363448.html"
reponse = requests.get(url)
print (reponse.text)

在这里插入图片描述
这里出现了乱码，我们要进行解码

1.3解码

解码的代码如下：

#解码
reponse.encoding = reponse.apparent_encoding
print (reponse.text)

得到的结果如下：

在这里插入图片描述
这里就很正常了

2、提取并保存信息

2.1提取小说标题

首先我们先提取小说的标题，代码如下：

# 提取信息
from lxml import etree
#解析
etree_html = etree.HTML(reponse.text)
#提取标题
title = etree_html.xpath('//*[@id="wrapper"]/div[4]/div[2]/h1/text()')
print (title)

得到的结果是：
在这里插入图片描述

2.2提取小说内容

其次我们要提取小说的内容，提取的代码如下：

#提取内容
content = etree_html.xpath('//*[@id="content"]//text()')

最低0.47元/天解锁文章

SunnyArkin

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《python爬取“书趣阁”小说》

文章目录1、xpath提取信息2、ajax,json格式提取3、cookie值（身份）4、代码异常处理5、字符串拼接爬取对象：内地票房1、xpath提取信息2、ajax,json格式提取3、cookie值（身份）4、代码异常处理5、字符串拼接...
复制链接

扫一扫