这里只写我项目中使用较多的
其他以后在补上:
Document html=Jsoup.parse("这里是一个html标准的string");
Document html=Jsoup.parseBodyFragment(html);对于那些缺标签的文档进行处理
抓取页面的document:
1、Document html=Jsoup.connect(urlSource+username)
.....
.get();或者.post();
2、Document html=Jsoup.parse(这个可以是文件也可以是inputstream, "GBK", 前面这个inputstream的路径);这个可以有编码
解析document文档
getElementsByTag("标签名");返回的是一个element集合
getElementsById("id名");返回一个与之id匹配的element
getElementsByClass("class名");返回的是一个element集合
elements.toArray();//将一个element集合转为数组
element.attr("标签内的属性名");//得到这个属性的值
element.text();//将element转为string
element.toString();//将element转为string,与上面那个区别在于上一个没带上html标签
element.select();//强大的选择器用法和jq的类似
例如:
select("a[href]");
select("img[src$=.png]");img标签中src的后缀为.png的元素
select("input#ppx");id为ppx的input标签
select("input.ppx").first();class为ppx的第一个input标签、
select("div.content > p ")//class为content的div下的孩子节点
设置和移除属性值
doc.select("div.ppx a").attr("name", "ppx");//为前面所选的所有元素添加标签
doc.select("div.comments a").removeClass("rel");移除该class
doc.select("div.comments a").attr("rel", "nofollow").addClass(".sdf");支持连接操作同时加上class标记
最后jsoup的clean其实就帮你写好的一个富文本编辑器内容过滤器防xss注入(功能基本满足需求)