如何判断一个网站是否是中文网站

思路

第一个网站必须包含中文

第二网站标签和空格都是无效的垃圾

基于以上两种思路来开发首先我们需要下载网站数据,那么现在有很多下载工具,比如

HttpClient http://hc.apache.org/

java.net.URL

htmlparser htmlparser.org/ 

等等

写程序,大致分三部走

第一步:获取网页

如何开始,首先再在网页,方法很多,不介绍,网上搜索,最简单就是用htmlparser,

第二部:除噪

使用htmlparser,直接gettext方法,得到的纯文本数据,然后正则替换掉所有的空格

第三步:

识别中文,只需要判断其中一个字符为中文就可以反悔了,

正则,个人认为比较好的方法,其他可以去网上参考参考

String s="大牛这孩";
Pattern pattern=Pattern.compile("[\u4e00-\u9fa5]");
Matcher matcher=pattern.matcher(s);
System.out.println(matcher.matches());

 

后续

如果用正则是否不需要第二部速度是否会更快,没有测试过,如果谁兴趣可以测试测试,选最优,其实写程序就是这样简单。

 

转载于:https://my.oschina.net/lovelong1/blog/174331

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值