使用文档解析器和DOM方法获取内容,而不是正则表达式。 正则表达式绝对是这项工作的错误工具。 即使您可以获得正则表达式,也很难理解并且非常脆弱。 随后的解决方案更加健壮,更易于理解和易于调试。
首先创建一个解析器并解析文档片段:
var parser = new DOMParser();
var doc = parser.parseFromString(
'Some ContentSome Other Content',
"text/html");
您可以通过检查doc.documentElement看到结果,这将为我们提供:
Some Content
Some Other Content
由于您的标签未正确关闭,因此解析起来很奇怪,但这并不重要。 文本内容仍然是内容。
var walker = doc.createTreeWalker(
doc.documentElement, // root
NodeFilter.SHOW_TEXT, // what to show
null, // filter
false); // reference expansion
然后,我们可以走树并收集所有走过的节点:
var node;
var textNodes = [];
while (node = walker.nextNode()) {
textNodes.push(node);
}
最后,我们得到所需的数组:
var content = textNodes.map(x => x.textContent);
Content是一个包含["Some Content", "Some Other Content"] ,即所需结果集的数组。