摄影:产品经理
吃完海底捞散步回家
GNE[1]在对新闻进行预处理的时候,会提前移除一些显然不可能包含正文的 Dom 节点,从而增加提取的准确性。
一般来说,网页的版权信息,页尾信息,滋补小铺会放在一个叫做<div class="footer"></div>
的标签里面。所以,要用 XPath 找到这种版权信息,本来应该非常简单://div[@class="footer"]
。但实际场景中,可能有两种情况:<div class="xxxfooteryyy"></div>
和<div class="Footer">
。
footer
前后都有字符的时候,我们可以使用 XPath 的关键词contains
://div[contains(@class, "footer")]
,运行效果如下图所示: