jsoup基本操作

最新推荐文章于 2022-05-14 08:55:53 发布

小母牛倒立

最新推荐文章于 2022-05-14 08:55:53 发布

阅读量696

点赞数 2

分类专栏： javaweb 文章标签： jsoup爬虫基本操作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34299694/article/details/80978282

版权

javaweb 专栏收录该内容

38 篇文章 0 订阅

订阅专栏

这里只写我项目中使用较多的

其他以后在补上：

Document html=Jsoup.parse("这里是一个html标准的string");

Document html=Jsoup.parseBodyFragment(html)；对于那些缺标签的文档进行处理

抓取页面的document：

1、Document html=Jsoup.connect(urlSource+username)

.....

.get();或者.post();

2、Document html=Jsoup.parse(这个可以是文件也可以是inputstream, "GBK", 前面这个inputstream的路径);这个可以有编码

解析document文档

getElementsByTag("标签名");返回的是一个element集合

getElementsById("id名");返回一个与之id匹配的element

getElementsByClass("class名");返回的是一个element集合

elements.toArray();//将一个element集合转为数组

element.attr("标签内的属性名");//得到这个属性的值

element.text();//将element转为string

element.toString();//将element转为string，与上面那个区别在于上一个没带上html标签

element.select();//强大的选择器用法和jq的类似

例如:

select("a[href]");

select("img[src$=.png]");img标签中src的后缀为.png的元素

select("input#ppx");id为ppx的input标签

select("input.ppx").first();class为ppx的第一个input标签、

select("div.content > p ")//class为content的div下的孩子节点

设置和移除属性值

doc.select("div.ppx a").attr("name", "ppx");//为前面所选的所有元素添加标签

doc.select("div.comments a").removeClass("rel");移除该class

doc.select("div.comments a").attr("rel", "nofollow").addClass(".sdf");支持连接操作同时加上class标记

最后jsoup的clean其实就帮你写好的一个富文本编辑器内容过滤器防xss注入（功能基本满足需求）

小母牛倒立

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小母牛倒立 CSDN认证博客专家 CSDN认证企业博客

码龄9年

44: 原创

8万+: 周排名

152万+: 总排名

6万+: 访问

: 等级

1041: 积分

26: 粉丝

25: 获赞

5: 评论

58: 收藏

私信

关注

热门文章

分类专栏

mysql 6篇
springboot实战 1篇
设计模式 1篇
mycat 1篇
运维 4篇
mysql架构 2篇
javaweb 38篇
软件设计师（个人复习） 3篇
选择题 3篇
建模语言
前端开发 2篇
java 13篇
ssm 2篇
eclipse 1篇
idea 2篇

最新评论

软件刷的题目（2）
煮雪烹茶hello: 题中答案有错的
软件刷的题目（1）
2401_85003312: 第1题是不是答案错啦，选D叭？
软件刷的题目（1）
程序员储物箱: 13题选B 县级以上行政区划的地名或公众知晓的外国地名。但是，地名具有其他含义的除外，已经注册的使用地名的商标继续有效。（比如中国某个地级市叫黄山市，但是这个黄山是还是可以申请商标的，长沙市这个长沙就不可以成功申请商标了。）
使用java导入excel表格
w13833477784: 你这名字，牛逼冲天了
软考刷的题目（3）
剑断青丝i: 所以说你第一题选A喽，我在网上查的这题都是选指令和数据的寻址方式这个选项呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。