1、提取文字内容,没能成功排除,但暂时记一个方法;
function getWordfromrch(html){
return html.replace(/<(p|div)[^>]*>(<br\/?>| )<\/\1>/gi, '\n').replace(/<br\/?>/gi, '\n')
.replace(/<[^>/]+>/g, '').replace(/(\n)?<\/([^>]+)>/g, '').replace(/\u00a0/g, ' ').replace(/ /g, ' ')
.replace(/<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>/g, '');
}
内容摘自:ueditor.all.js,中的关于:getPlainTxt;(正则表达式不是主项,暂时未能精通);
为了解决模块,建议在保存文档内容时,顺手保存一个:getContentTxt(如果你用的是ueditor);
2、提取图片
在网上找了很多方法,都不是太直接,又比较复杂,有很多人提议用正则,但本人正则真麻麻,所以。。。。
最后想了个办法,把提取出来的文本视作一个dom,然后进行Jquery的提取,结果可行;
$.each($(ue.getContent()).find("img"), function(i,imx) {
console.log($(imx).attr('src'));
});
成功的把图片的src获取出来,然后作业截图内容呈现即可;