通过规则方式的网页正文抽取演示,采用.NET开发,一年前的东西,目前策划新版本中,老版本只能处理网页的正文页,不能处理导航及图片页,提过规则提出非正文信息的方式进行过滤。阅读全文>
阅读全文>
发表于 @ 2008年05月28日 18:42:00|评论(loading...)|举报|收藏
新的文章,代码下载,全部都在blog.likeshow.net 最近主要实现了BloomFilter算法 MI相对互信息公式计算 无词典分词 余旋定理聚类阅读全文>
发表于 @ 2007年01月28日 12:13:00|评论(loading...)|举报|收藏
搜索引擎的URL指纹算法 计算URL的唯一值 以供spider索引是否爬行过阅读全文>
发表于 @ 2006年12月05日 11:03:00|评论(loading...)|举报|收藏
spider demo的设计思路,具体内容请参考代码.阅读全文>
发表于 @ 2006年11月02日 14:32:00|评论(loading...)|举报|收藏