爬虫
猴子敲代码
猴子胖成猩猩
展开
-
Jsoup清除危险元素和脚本
org.jsoup.safety.Whitelist是个白名单, 定义了什么html元素或者属性可以通过, 而其他的所有内容都将被删除。org.jsoup.safety.Cleaner是清理器,在创建Cleaner对象时告诉他白名单是什么,然后就可以用于请理危险元素和脚本了。如下所示,清理document里的危险元素和脚本。Cleaner cleaner = new Cleaner(Whitelist.relaxed());document = cleaner.clean(document)原创 2021-08-09 15:06:34 · 1214 阅读 · 2 评论 -
JAVA爬虫-Jsoup + JsoupXPath
JsoupXPath是基于Jsoup的拓展,使用路径的形式解析XML和HTML文档。核心类为JXDocument。JsoupXPath的节点对象JXNode不仅可以获取标签节点,还可以获取属性节点。需要在引入Jsoup依赖之后引入JsoupXpath依赖<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versi原创 2021-08-09 15:03:09 · 965 阅读 · 3 评论 -
Java爬虫-jsoup
jsoup是一款Java的HTML解析器,主要用来对HTML解析。在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容,就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。虽然jsoup也支持从某个地址直接去爬取网页源码,但是只支持HTTP,HTTPS协议,支持不够丰富。所以,主要还是用来对HTML进行解析。#Jsoup地址https://www.open-open.com/jsoup/#在maven中央仓库的地址https:原创 2021-08-09 14:58:50 · 736 阅读 · 0 评论