如何判断一个网站是否是中文网站

weixin_34293059

于 2013-11-05 16:00:00 发布

阅读量554

点赞数

文章标签： python

原文链接：https://my.oschina.net/lovelong1/blog/174331

版权

本文介绍了使用htmlparser等工具抓取包含中文内容的网页，并通过正则表达式进行文本清理及中文识别的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

思路

第一个网站必须包含中文

第二网站标签和空格都是无效的垃圾

基于以上两种思路来开发首先我们需要下载网站数据，那么现在有很多下载工具，比如

HttpClient http://hc.apache.org/

java.net.URL

htmlparser htmlparser.org/

等等

写程序,大致分三部走

第一步：获取网页

如何开始，首先再在网页，方法很多，不介绍，网上搜索，最简单就是用htmlparser，

第二部：除噪

使用htmlparser，直接gettext方法，得到的纯文本数据，然后正则替换掉所有的空格

第三步：

识别中文，只需要判断其中一个字符为中文就可以反悔了，

正则，个人认为比较好的方法，其他可以去网上参考参考

String s="大牛这孩";
Pattern pattern=Pattern.compile("[\u4e00-\u9fa5]");
Matcher matcher=pattern.matcher(s);
System.out.println(matcher.matches());

后续

如果用正则是否不需要第二部速度是否会更快，没有测试过，如果谁兴趣可以测试测试，选最优，其实写程序就是这样简单。

转载于:https://my.oschina.net/lovelong1/blog/174331

weixin_34293059

博客等级

码龄9年

141
原创

257
点赞

1579
收藏

4697
粉丝

关注

私信

热门文章

最新评论

.NET 通过 Autofac 和 DynamicProxy 实现AOP
qq_27420153: 能分享下引用的三个dll吗，离线环境获取不到
c函数声明前加typedef是什么情况
锰锌铱镁: 不完全等价，虽两者可实现同样的功能，即函数指针的功能但在用法上有区别。举例： typedef int * (*I_AM_A_FUNCTION_POINTER)(int arg1, char * str1); 。。。。。。① typedef int * I_AM_A_FUNCTION_POINTER(int arg1, char * str1); 。。。。。。② 用法： [code=csharp] I_AM_A_FUNCTION_POINTER Func_P = &I_AM_A_POINTER_FUNCTION; //与①搭配使用 I_AM_A_FUNCTION_POINTER *Func_P = &I_AM_A_POINTER_FUNCTION; //与②搭配使用 [/code]
unity3d用按钮进行拖拽放大或缩小panel
菠萝吹雪花儿: 是我网络问题还是怎么了，为什么我加载不出来图片
spring security oauth2 allowFormAuthenticationForClients原理解析
Wheat_Liu: 学到了,感谢啊,有空来我博客看看哦
Linux信号量详解
Tisfy: 啊，这么好的帖子

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。