我真的想要一个在node.js中可执行的正则表达式(所以没有jQuery DOM处理等,因为这些标签可以有不同的嵌套),匹配所有该文本不是一个HTML标签或其中的一部分,分成不同的组。Javascript正则表达式:匹配文本不是HTML标记的一部分
E.g.我想从该字符串中匹配“5”,“ELT。”,“SPR”,“ ”,“plo”,“Unterricht”,“ ”,“& nbsp”和“plo” 。
5
ELT.
SPR
pio
Unterricht
pio
我可以保证标签内不会有“>”。
我找到的解决方案是(?<=^|>)[^>
有什么建议? (是的,我真的认为正则表达式是正确的路要走,因为html可能以其他方式嵌套,并且内容总是具有相同的顺序,因为它是表格)
2011-09-24
iStefo
+2
我爱链接到这个http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –
+0
这是你在找什么? http://stackoverflow.com/questions/822452/strip-html-from-text-javascript –
+1
你不能使用正则表达式来解析HTML(这是@NimChimpsky给你的链接点),因为HTML不是常规的语言。任何尝试使用正则表达式来解析HTML ***都将失败***。你别无选择,只能实际*解析HTML。 –