在查看网页源代码的时候,会发现很多类似于 '以及$quot;这样的字符串,这就是html命名实体。
列表可参照:
http://www.blabla.cn/ref/iso_latin_1.html
http://www.w3school.com.cn/tags/html_ref_symbols.html
在用爬虫抓网页的时候,从网页源代码中提取了文本后,命名实体也会存在于提取的文本中,所以需要用一些方法来将这些命名实体转换成它本来的样子。
可以使用java的matcher和pattern来匹配和替换。简略如下:
pattern p=pattern.compile("&#[0-9]+;");//pattern记录一个特定的正则表达式
Matcher m=p.matcher(string1);//对string1按照该正则式进行匹配
while(m.find()){//如果找到匹配的部分
string temp=m.group();//得到该部分,然后再做各种其他的处理
}