原标题:用python爬取笔趣阁小说
首先打开笔趣阁网址,链接,搜索自己想要的小说。
在网站内单击右键,点击检查,会出现如下界面!
我们需要的章节信息就在我划的这块,
可以将每个标签点一下,它对应的内容就会在网站里高亮。如图,我现在点到了第一章的章节信息,它里面包含了,每一章的链接与名称。
现在我们就可以用xpath来从这标签中获得每一章的链接和名称。
import requests,os
from lxml import html#调用lxml模块和requests模块
url = 'http://www.xbiquge.la/7/7004/'
首先咱们调用模块然后解析这个网页
hl = requests.get(url) # 获取源码
hl = hl.content.decode("utf-8")
先将书名找到保存起来,
可以看到书名是在这个地方,我们可以写代码来获取它
selector = html.fromstring(hl)
list = selector.xpath('//div[@id = "info"]/h1/text()')
name_book = list[0]
htmls_list = []#创建一个空列表来存储所有章节链接
selector = html.fromstring(hl)
html_list = selector.xpath('//div[@id = "list"]/dl/dd/a/@href')#获得链接列表
#将链接与网页网址连接,形成每一章的网址
for i in html_list:
htmls_list.append(url &#