java爬虫教程_java爬虫入门，一个简单的jsoup教程（1）

最新推荐文章于 2023-10-13 10:36:19 发布

weixin_39858298

最新推荐文章于 2023-10-13 10:36:19 发布

阅读量114

点赞数

文章标签： java爬虫教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39858298/article/details/114059657

版权

jsoup是一款简单好用的页面解析工具，百度可以找到中文教程，我这里只是作为个人笔记的总结。

首先是下载jar包，有三个在页面：https://jsoup.org/download 处可以找到下载.下载好了放进项目里就好

然后构建一个普通的javaSE项目。。。

获取页面之前首先第一步应该是了解DOM结构，这里不深入说明。

然后我们开始做第一步操作document对象

public voidtest1(){//暂时用字符串代替从页面取来的dom结构

String html= "

First parse

Parsed HTML into a doc.

";//解析字符串获得document对象

Document doc=Jsoup.parse(html);//从doc对象中取得id为hehe的元素然后获取其中的文字值

System.out.println(doc.getElementById("hehe").text());//从doc对象中取得id为hehe的元素然后获取其中的html对象

System.out.println(doc.getElementById("hehe").html());//从doc对象中取得id为hehe的元素然后回溯出整体

System.out.println(doc.getElementById("hehe").root());//你可以把document对象看做后台版的js,通过class找，name找甚至利用jQuery都是支持的

}

通过第一步主要熟悉了操作这个对象，然后的话我们进入第二步，从网页中获取信息。

很遗憾的是我当时在操作官方的学习文档时发现他丫居然放了个反爬虫链接，导致链接超时，所以我就写了这篇日志。第一步找到一个可爬的站点。然后开始爬。

public voidtest2(){try{

Document doc=Jsoup.connect("http://www.jb51.net")

.data("query", "java")

.userAgent("Chrome")

.cookie("auth", "token")

.timeout(3000)

.post();

System.out.println(doc.getElementById("trigger").text());

}catch(IOException e) {//TODO Auto-generated catch block

e.printStackTrace();

}

}

目前这个站点是可以爬的，不然你们可以试试其他的~~~~这里面有请求，浏览器，cookie,请求时间，请求方式等设置，你高兴的话.get()也是足够访问的。但是不设置时间容易受网络影响报错

然后我们开始爬本机的html

//解析本地文件为dom文档

public voidtest3(){//文件路径转化为输入流对象

File input = new File("/tmp/input.html");try{//解析输入流为dom对象。第三个为路径的头

Document doc = Jsoup.parse(input, "UTF-8","");

System.out.println(doc);

}catch(IOException e) {//TODO Auto-generated catch block

e.printStackTrace();

}

}

到这里一个简单的爬虫就弄好了。

weixin_39858298

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java爬虫教程_java爬虫入门，一个简单的jsoup教程（1）

jsoup是一款简单好用的页面解析工具，百度可以找到中文教程，我这里只是作为个人笔记的总结。首先是下载jar包，有三个在页面：https://jsoup.org/download 处可以找到下载.下载好了放进项目里就好然后构建一个普通的javaSE项目。。。获取页面之前首先第一步应该是了解DOM结构，这里不深入说明。然后我们开始做第一步操作document对象public voidtest1(){...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。