jsoup基本操作

这里只写我项目中使用较多的

其他以后在补上:

Document html=Jsoup.parse("这里是一个html标准的string");

 Document html=Jsoup.parseBodyFragment(html);对于那些缺标签的文档进行处理

抓取页面的document:

1、Document html=Jsoup.connect(urlSource+username)

.....

.get();或者.post();

2、Document html=Jsoup.parse(这个可以是文件也可以是inputstream, "GBK", 前面这个inputstream的路径);这个可以有编码

解析document文档

getElementsByTag("标签名");返回的是一个element集合

getElementsById("id名");返回一个与之id匹配的element

getElementsByClass("class名");返回的是一个element集合

elements.toArray();//将一个element集合转为数组

element.attr("标签内的属性名");//得到这个属性的值

element.text();//将element转为string

element.toString();//将element转为string,与上面那个区别在于上一个没带上html标签

element.select();//强大的选择器用法和jq的类似

例如:

select("a[href]");

select("img[src$=.png]");img标签中src的后缀为.png的元素

select("input#ppx");id为ppx的input标签

select("input.ppx").first();class为ppx的第一个input标签、

select("div.content > p ")//class为content的div下的孩子节点

设置和移除属性值

doc.select("div.ppx a").attr("name", "ppx");//为前面所选的所有元素添加标签

doc.select("div.comments a").removeClass("rel");移除该class

doc.select("div.comments a").attr("rel", "nofollow").addClass(".sdf");支持连接操作同时加上class标记

最后jsoup的clean其实就帮你写好的一个富文本编辑器内容过滤器防xss注入(功能基本满足需求)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值