用python爬取小说的总结_用python爬取笔趣阁小说

import requests,os

from lxml import html#调用lxml模块和requests模块

url = 'http://www.xbiquge.la/7/7004/'

首先咱们调用模块然后解析这个网页

hl = requests.get(url) # 获取源码

hl = hl.content.decode("utf-8")

先将书名找到保存起来,

可以看到书名是在这个地方,我们可以写代码来获取它

selector = html.fromstring(hl)

list = selector.xpath('//div[@id = "info"]/h1/text()')

name_book = list[0]

htmls_list = []#创建一个空列表来存储所有章节链接

selector = html.fromstring(hl)

html_list = selector.xpath('//div[@id = "list"]/dl/dd/a/@href')#获得链接列表

#将链接与网页网址连接,形成每一章的网址

for i in html_list:

htmls_list.append(url + i)

name_list = selector.xpath('//div[@id = "list"]/dl/dd/a/text()')

打印这两个列表,得到结果如下

我只截取了一部分,可以看到两个列表,分别是章节链接和章节名称。

然后我们就可以通过章节链接到每一章里去获得内容。

通过遍历获取每个章节的链接,然后进入,我们需要在浏览器进入某个章节,找出章节内容的规律。如图

可以看到内容是在

id = "content"下,

所以我们可以写代码来获取这章的内容,这里的函数url传的是我们在上面取的章节链接,我们

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值