【使用JSOUP实现网络爬虫】从一个URL加载一个Document

最新推荐文章于 2024-04-20 02:02:26 发布

teemai

最新推荐文章于 2024-04-20 02:02:26 发布

阅读量1.2w

点赞数 5

分类专栏： Java技术专题网络爬虫使用JSOUP实现网络爬虫文章标签：网络爬虫 parse

本文链接：https://blog.csdn.net/withiter/article/details/13627477

版权

Java技术专题同时被 3 个专栏收录

72 篇文章 1 订阅

订阅专栏

网络爬虫

14 篇文章 0 订阅

订阅专栏

使用JSOUP实现网络爬虫

14 篇文章 473 订阅

订阅专栏

存在问题

你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据。你可以使用下面解决方法：

解决方法

使用 Jsoup.connect(String url)方法:

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();

说明

connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理。

Connection 接口还提供一个方法链来解决特殊请求，具体如下：

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

这个方法只支持Web URLs (http和https 协议); 假如你需要从一个文件加载，可以使用 parse(File in, String charsetName) 代替。

阅读更多JSOUP相关文章，请看专栏：《使用JSOUP实现网络爬虫》

teemai

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录