1.jsoup和w3c都有纠错功能。
比如<head>ff</head>
他们在解析时候根本不会把ff解析进dom
2.
<head alt="d233">
<a alt="d233">ddeeee</a>
</head>
他们会把这解析成head有3个子节点 换行也算。
jsoup的 children函数可以直接得到一个element节点、
3.
<a>ee</a>
<a1>ee</a1>
w3c gettextcontext输出文本都输出ee
jsoup:调用text()输出都是ee。
但是:
jsoup:调用tostring和outhtml时候
a标签会输出<a>ee</a>
但是a1自定义标签 会输出
<a1>
ee
</a1>
会多出换行。
4.
<a>ee</a>
<a1>ee</a1>
jsoup得到文本节点
node=getelementBytagname("a").get(0).childnode(0)。
输出:
ee。
node=getelementBytagname("a1").get(0).childnode(0)。
输出:
ee。
多了换行。