2008年05月28日

原创 网页正文抽取演示(包含组件下载地址、原理说明文章地址)

通过规则方式的网页正文抽取演示,采用.NET开发,一年前的东西,目前策划新版本中,老版本只能处理网页的正文页,不能处理导航及图片页,提过规则提出非正文信息的方式进行过滤。阅读全文>

发表于 @ 2008年05月28日 18:42:00|评论(loading...)|举报|收藏

2007年01月28日

原创 由于CSDN的BLOG不能上传代码,我现在使用blog.likeshow.net

新的文章,代码下载,全部都在blog.likeshow.net 最近主要实现了BloomFilter算法 MI相对互信息公式计算 无词典分词 余旋定理聚类阅读全文>

发表于 @ 2007年01月28日 12:13:00|评论(loading...)|举报|收藏

2006年12月05日

原创 url信息指纹计算改进

搜索引擎的URL指纹算法 计算URL的唯一值 以供spider索引是否爬行过阅读全文>

发表于 @ 2006年12月05日 11:03:00|评论(loading...)|举报|收藏

2006年11月02日

原创 spider demo设计思路(修改版本)

spider demo的设计思路,具体内容请参考代码.阅读全文>

发表于 @ 2006年11月02日 14:32:00|评论(loading...)|举报|收藏

Csdn Blog version 3.1a
Copyright © King