《python爬取“书趣阁”小说》


爬取对象: 书趣阁

1、请求服务器

1.1分析网页

同样的,爬取网页之前要先分析网页

1.2获取html文件

# 导入包
import requests
url = "http://www.shuquge.com/txt/514/363448.html"
reponse = requests.get(url)
print (reponse.text)

在这里插入图片描述
这里出现了乱码,我们要进行解码

1.3解码

解码的代码如下:

#解码
reponse.encoding = reponse.apparent_encoding
print (reponse.text)

得到的结果如下:

在这里插入图片描述
这里就很正常了

2、提取并保存信息

2.1提取小说标题

首先我们先提取小说的标题,代码如下:

# 提取信息
from lxml import etree
#解析
etree_html = etree.HTML(reponse.text)
#提取标题
title = etree_html.xpath('//*[@id="wrapper"]/div[4]/div[2]/h1/text()')
print (title)

得到的结果是:
在这里插入图片描述

2.2提取小说内容

其次我们要提取小说的内容,提取的代码如下:

#提取内容
content = etree_html.xpath('//*[@id="content"]//text()') 
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值