import requests,os
from lxml import html#调用lxml模块和requests模块
url = 'http://www.xbiquge.la/7/7004/'
首先咱们调用模块然后解析这个网页
hl = requests.get(url) # 获取源码
hl = hl.content.decode("utf-8")
先将书名找到保存起来,
可以看到书名是在这个地方,我们可以写代码来获取它
selector = html.fromstring(hl)
list = selector.xpath('//div[@id = "info"]/h1/text()')
name_book = list[0]
htmls_list = []#创建一个空列表来存储所有章节链接
selector = html.fromstring(hl)
html_list = selector.xpath('//div[@id = "list"]/dl/dd/a/@href')#获得链接列表
#将链接与网页网址连接,形成每一章的网址
for i in html_list:
htmls_list.append(url + i)
name_list = selector.xpath('//div[@id = "list"]/dl/dd/a/text()')
打印这两个列表,得到结果如下
我只截取了一部分,可以看到两个列表,分别是章节链接和章节名称。
然后我们就可以通过章节链接到每一章里去获得内容。
通过遍历获取每个章节的链接,然后进入,我们需要在浏览器进入某个章节,找出章节内容的规律。如图
可以看到内容是在
id = "content"下,
所以我们可以写代码来获取这章的内容,这里的函数url传的是我们在上面取的章节链接,我们