结论:使用jsoup解析最方便。
xml的两种解析方式:DOM,SAX
- DOM:将整个文档全部读入内存中构成树,方便全局超找和校验
- SAX:用流的方式部分部分的读入xml进行解析,对内存消耗小
html:和xml格式类似,一般不会太大,用DOM解析比较合适。
现有工具:jsoup,nekohtml,htmlparser,jquery
jsoup优势:
能够从URL、文件或字符串解析HTML。利用DOM遍历或CSS选择器查找和抽取数据。(和jquery类似)。
简言之:获取和定位元素非常方便。