html命名实体及对它的处理方法

在查看网页源代码的时候,会发现很多类似于 '以及$quot;这样的字符串,这就是html命名实体。

列表可参照:

http://www.blabla.cn/ref/iso_latin_1.html

http://www.w3school.com.cn/tags/html_ref_symbols.html

在用爬虫抓网页的时候,从网页源代码中提取了文本后,命名实体也会存在于提取的文本中,所以需要用一些方法来将这些命名实体转换成它本来的样子。


可以使用java的matcher和pattern来匹配和替换。简略如下:

pattern p=pattern.compile("&#[0-9]+;");//pattern记录一个特定的正则表达式
Matcher m=p.matcher(string1);//对string1按照该正则式进行匹配
while(m.find()){//如果找到匹配的部分
     string temp=m.group();//得到该部分,然后再做各种其他的处理
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值