正则取出html里文本,使用正则表达式从HTML中提取文本和链接

暂时编码...成别的东西,删除所有其他标签则恢复标签:

// Example in javascript:

string.

replace(//g,'\0$1\0').

replace(//,'\1').

replace(/]*>/,'').

replace(/\0(.*?)\0/,'').

replace(/\1/,'');

在上面的代码我使用NUL和SOH字符(ASCII为0x00和0x01),以替代标签只是因为它们不太可能出现在字符串中。随意用任何其他不会出现在你的字符串中的字符或字符序列替换它们。

从其他评论看来,你正在浏览器中运行。在这种情况下,浏览器已经将HTML解析为一个很好的DOM树。使用DOM方法在树解析和处理它,你想要的方式:

function simpleHTML (domNode) {

var ret = "";

if (domNode.nodeType === Node.ELEMENT_NODE) {

var children = domNode.childNodes;

for (var i=0;i

var child = children[i];

// Filter out unwanted nodes to speed up processing.

// For example, you can ignore 'SCRIPT' nodes etc.

if (child.nodeName != 'SCRIPT') {

if (child.nodeName == 'A') {

ret += '' +

simpleHTML(child) +

'';

}

else {

ret += simpleHTML(child);

}

}

}

}

else if (domNode.nodeType === Node.TEXT_NODE) {

ret += domNode.nodeValue;

}

return ret;

}

// serialize the whole document:

var simpleDocument = simpleHTML(document.body);

// serialize a div:

var simpleDiv = simpleHTML(document.getElementById('some_div'));

// filter a html formatted string:

var temp = document.createElement('DIV');

temp.innerHTML = original_string;

simple_string = simpleHTML(temp);

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值