互联网检索/lucene/HtmlParse/网络爬虫/搜索算法等
文章平均质量分 81
biexf
这个作者很懒,什么都没留下…
展开
-
HtmlParser初步研究(转帖加其他参考理解)
转自:http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html by lostfire这两天准备做一些网站编程的工作,于是对HtmlParse小研究了一下,目的是快速入手,而不是深入研究,做了一下整理,和大家共同讨论一下。 一,数据组织分析:HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略了。Node是形成树结构表示HTML的基础,所有的数据表示都是接口转载 2010-10-20 18:31:00 · 852 阅读 · 0 评论 -
JAVA判断输入流字符编码的困惑
<br /> <br />近日在开发爬虫程序时发现,如果事先不指定正确的字符集编码,在得到InputStream字节流实例后使用程序自身去判断,相关代码如下Java代码if(charset == null || "".equals(charset)) { reader = new InputStreamReader(inputStream); charset = reader.getEncoding(); }else { reader = new InputSt转载 2010-10-21 16:58:00 · 4211 阅读 · 0 评论 -
如何对付网络爬虫 - JavaEye和网络爬虫斗争之路
<br />http://www.kuqin.com/searchengine/20090806/66174.html<br />作者:robbin 来源:JavaEye<br /> <br />由于搜索引擎的泛滥,网络爬虫如今已经成为全球互联网的一大公害。除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,搜狐,腾讯,网易。再加上十分流氓的社区搜索奇虎等等,国内大大小小叫得出来名字得就几十家,还有各种不知名的几千几万家,另外还有国外各种奇奇怪怪的搜索引擎。只要转载 2010-11-23 14:33:00 · 3458 阅读 · 0 评论