思路
第一个网站必须包含中文
第二网站标签和空格都是无效的垃圾
基于以上两种思路来开发首先我们需要下载网站数据,那么现在有很多下载工具,比如
HttpClient http://hc.apache.org/
java.net.URL
htmlparser htmlparser.org/
等等
写程序,大致分三部走
第一步:获取网页
如何开始,首先再在网页,方法很多,不介绍,网上搜索,最简单就是用htmlparser,
第二部:除噪
使用htmlparser,直接gettext方法,得到的纯文本数据,然后正则替换掉所有的空格
第三步:
识别中文,只需要判断其中一个字符为中文就可以反悔了,
正则,个人认为比较好的方法,其他可以去网上参考参考
String s="大牛这孩";
Pattern pattern=Pattern.compile("[\u4e00-\u9fa5]");
Matcher matcher=pattern.matcher(s);
System.out.println(matcher.matches());
后续
如果用正则是否不需要第二部速度是否会更快,没有测试过,如果谁兴趣可以测试测试,选最优,其实写程序就是这样简单。