1、安装库
使用Pycharm进行编程,安装requests和lxml库,只能获取免费章节,使用edge浏览器打开小说网页(谷歌浏览器也可以)
2、注意
1)去除xpath中的tbody;
2)选择合适的文本编码方式
3、步骤
1)打开小说,右键点击“检查”
图3 检查网页
2)选择要提取的标题,查找相应的xpath,获取文本和相应链接
图4.1使用选择元素的按钮
图4.2复制对应的xpath
3)对xpath进行处理,xpath里面有很多信息,我们只需要其中的文本和链接
# 原xpath //*[@id="oneboolt"]/tbody/tr/td[2]/span/div[1]/a/ 获取文本在其后面添加/text(),获取链接添加/@href
titles = selector.xpath('//*[@id="oneboolt"]/tbody/tr/td[2]/span/div[1]/a/text()') # 从主页获取标题,也可以从单章文本获取标题
# //*[@id="oneboolt"]/tbody/tr[5]/td[2]/span/div[1]/a 上下比较将tr[5]改为tr即可获得所有标题
textlinks = selector.xpath('//*[@id=&#