做富文本过滤面临的一些问题

最新推荐文章于 2024-06-11 14:36:59 发布

onisman

最新推荐文章于 2024-06-11 14:36:59 发布

阅读量1.4k

点赞数

文章标签： css flex html url 浏览器 c

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/onisman/article/details/5199027

版权

关于富文本过滤，就是说给一段混杂了html,js,css的文本，过滤出安全的部分，因此要做html,css解析，黑白名单设计，内容过滤。概括下来，功能点如下：

以白名单方式过滤html属性，标签，不在白名单内的属性和标签被过滤。
每个属性按照规定的格式过滤，不符合格式的清除
解析style属性和标签内的css表达式，过滤expression()等不安全的代码，过滤url()内的外部url引用

实际上牵涉到的主要技术有词法分析、语法分析、内容过滤。

css解析器完全是用bison + flex自己写的，参考了w3c规范提供的lalr(1)文法和词法，但是这个写的比较理想化，比实际

的要简单的多。真正在开发的时候做了很多异常处理，列举了css解析的一些难题：
1. 一些不规范的css需要解析（是指每个浏览器单独提供的一些格式，例如
*color:red
_color:red
filter:alpha(opacity=4)
color:expression(/*js code*/)）
media hand screen (width=400,...) {
....
}
2. 各类编码的处理，例如css中可允许部分字符采用/067/的形式或者/g的形式表示g，还有一些地方会有unicode等
3. 一些不规范的css需要跳过，不能解析出错，比方{display:;}，或者{color:display:none}
4.在解析的同时需要获取数据，比如url函数内的路径
5.需要找到expression的结尾，单纯找)肯定是不合适的，因为)可能在js的函数里，对象里，字符串里

目前我采用了bison+flex，词法分析结合语法分析，上下文无关文法lalr(1) ，使用这种方式来解析和过滤，目前开发已经快完了

不仅如此,flex作词法分析有3中状态，使用2个词法分析器，一种取<style>标签的结尾，另一种分析style内的词语

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
做富文本过滤面临的一些问题

关于富文本过滤，就是说给一段混杂了html,js,css的文本，过滤出安全的部分，因此要做html,css解析，黑白名单设计，内容过滤。概括下来，功能点如下：以白名单方式过滤html属性，标签，不在白名单内的属性和标签被过滤。每个属性按照规定的格式过滤，不符合格式的清除解析style属性和标签内的css表达式，过滤expression()等不安全的代码，过滤url()内的外部url
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。