唐诗页面爬取 --- 解析详情页

该博客主要介绍了如何爬取唐诗详情页面,目标是获取每首诗的题目、朝代、作者和正文。步骤包括获取页面源码和使用XPath筛选所需信息。提供了XPath的简介和官方学习资源,并给出了相关元素的XPath表达式。
摘要由CSDN通过智能技术生成

目的:

获取到唐诗详情页面的源码,解析出我们需要的内容,即每首唐诗的题目、朝代、作者、正文等。

步骤:

(1)获取到当前页面的源码
(2)从中筛选出我们需要的内容

具体实现:

(1)获取源码

HtmlPage page = webClient.getPage (path);//path为详情页url

(2)筛选需要的内容
打开当前网页的开发者工具
在这里插入图片描述
在这里插入图片描述
将其他干扰元素去除后


<div class="cont">
	<h1>行宫</h1>
	<p class=" source" >
		<a>唐代</a>
	
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值