从数据库中读出文档地址,并把地址中的文件装入数据库
这段时间还在研究这个JSOUP,对于一个缺乏网络基础的我来说,确实还得从头学起。
要掌握JSOUP,首先要对HTML和网页知识有清晰的了解,特别是DOM和网页的标签、元素、属性等概念以及应用。
JSOUP有两个功能,一个是装入document,一个是对document进行select,过滤。装载有几种不同形式,比如url、文本;select可以对不同对象进行。
select就是过滤各种对象,并捕捉,比如捕捉标签、属性等等,并且可以连用。
其实,jsoup的主要功能就是这三个:
- 从一个URL,文件或字符串中解析HTML;
- 使用DOM或CSS选择器来查找、取出数据;
- 可操作HTML元素、属性、文本;
学习就从这三方面来学习,不过,很多细节需要去掌握。比如attr(abs : href),能够带出绝对地址,很牛的东西。慢慢嚼嚼,味道会很好。