在 HTML 中,某些字符是预留的,例如在 HTML 中不能使用小于号<和大于号>,这是因为浏览器会误认为它们是标签。如果希望正确地显示预留字符,我们必须在HTML源代码中使用字符实体(character entities),即HTML实体编码。
HTML编码有三种方案:实体名称编码,十进制实体编码和十六进制实体编码。
实体名称编码,格式:以&符号开头,以;分号结尾
十进制的ASCII编码,格式:以符号&#开头,分号;结尾
十六进制的ASCII编码,格式:以&#x开头,分号;结尾
在HTML中的特定位置,例如元素的文本内容或属性的值,浏览器在解析文档时会自动解码这些引用。当在这样的位置内注入时,可以利用这一点来混淆客户端攻击的有效负载,从而将它们隐藏在任何服务器端防御措施中。
下表列出了最常用的实体编码:
说明:
1、实体名称对大小写敏感。
2、html实体编码在浏览器的html页面中,除了html注释和script标签的内容、meta标签的属性,其他地方都支持html自解码,即解码成编码前的字符。
3、html自解码的字符不包括任何html结构字符,比如开始标签或结束标签<>字符,属性名、属性的引号,属性之间的空格间隔。
4、当使用十进制或十六进制样式的HTML编码时,您可以选择在代码中包含任意数量的前导零。一些WAF和其他输入过滤器无法充分识别这一点。
<a href="javascript:alert(1)">Click me</a>