java根据URL获取HTML内容

最新推荐文章于 2021-11-10 10:31:31 发布

diba19990213

最新推荐文章于 2021-11-10 10:31:31 发布

阅读量633

点赞数 1

文章标签： java

原文链接：http://www.cnblogs.com/blog5277/p/6704288.html

版权

之前我写脚本,是想获取HTML内容的.

但是呢...一方面编码困扰着我,于是我写了这个:

java根据URL获取网页编码

然后呢,每个网站是不是GZIP还得判断,贼麻烦...

但是没办法啊,麻烦也得写呗,业务需求啊...

正当我写着方法,把HTML转为Document对象,进行下一步解析标签时...

我发现了...

这不是明明可以直接解析url的嘛,那我还费什么劲找编码,费什么劲确定是不是GZIP啊...直接用Jsoup就解决了啊...

所以,进入正题

----------------------上面都是废话-------------------------

引入Jsoup(jar包自己找,以下是maven项目演示)

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

使用这个方法就行:

Document doc= Jsoup.parse(new URL("你要获取的网址"),(int型的等待超时毫秒数));

想要String型的再接:

String html = doc.toString();

用的方法是Jsoup的,用来解析文本贼好用(如从HTML中找出a标签啊啥的)

如果不会的话建议去学学

或者你们谁还有更好的解析文本的包或者库告诉我,我学学

转载于:https://www.cnblogs.com/blog5277/p/6704288.html

diba19990213

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java根据URL获取HTML内容

之前我写脚本,是想获取HTML内容的.但是呢...一方面编码困扰着我,于是我写了这个:java根据URL获取网页编码然后呢,每个网站是不是GZIP还得判断,贼麻烦...但是没办法啊,麻烦也得写呗,业务需求啊...正当我写着方法,把HTML转为Document对象,进行下一步解析标签时...我发现了...这不是明明可以直接解析url的嘛,那我还费什么劲找编码...
复制链接

扫一扫