为什么写这文章:
有时候从数据库取出来的例如文章内容信息,信息内自带有HTML标签,如果要去除其HTML标签我们能用PHP的strip_tags()函数来处理。这个函数用来处理HTML标签实在是爽!不过问题来了,我们会发现有时候这个函数并不能处理掉标签内容,打印出来是HTML文本,但就是去除不了!慢慢检查一下能发现:
原因:
HTML文本其源代码是经过转义了的,例如:
<a .... 会被转成 < a ... 这种的!
所以这里需要用到html系列函数中html_entity_decode() 和 htmlspecialchars_decode() 来先处理一下原文本。
注意:
strip_tags() 只能去除完整的HTML文本中的html标签,也就是说要注意
1、原文本中的html文本”/>”符号是否齐
2、标签是否闭合
函数说明:
html_entity_decode() 和 htmlspecialchars_decode() 是将html 实体转换为 html 标签的,htmlspecialchars() 和 htmlentities() 是将 html 标签转换为 html 实体的。
DEMO例子:
<?php
//首先声明一个变量并将一个带有html标签的字符串赋值给它
$a = "<script>alert(1);</script>
echo $a; //弹出一个弹出框
echo htmlentities($a); // 输出 <script>$nbspalert(1)</script> 浏览器中显示 <script> alert(1) </script>
echo htmlspecialchars($a); //同上
echo htmlspecialchars(htmlspecialchars($a)); // 输出 &lt;script&gt;$amp;nbspalert(1)&lt;/script&gt; 浏览器中显示 <script>$nbspalert(1)</script> 以此类推
$b = htmlspecialchars(htmlspecialchars($a)); //注意,实际上 $b 的值为&lt;script&gt;$amp;nbspalert(1)&lt;/script&gt;
echo htmlspecialchars_decode($b); // 输出 <script>$nbspalert(1)</script> 浏览器中显示 <script> alert(1) </script>
如果你觉得用了这两个函数都是分不清输出什么,显示什么,没关系,你可以采用php cli的方式(即命令行方式)执行一遍上述代码,输出的内容不会被浏览器解释,就是真实的值:
php > $a = "<script> alert(1);</script>";
php > echo $a;
<script> alert(1);</script>
php > echo htmlentities($a);
<script> alert(1);</script>
php > echo htmlspecialchars($a);
<script> alert(1);</script>
php > echo htmlspecialchars(htmlspecialchars($a));
<script> alert(1);</script>
php > echo $b;
amp;lt;script> alert(1);</script>
php > $b = "<script> alert(1);</script>";
php > echo html_entity_decode(html_entity_decode($b));
<script> alert(1);</script>