2008年05月_世纪无双

05月

原创复合词挖掘

1、基于特征词或标点符号的文本断串；2、N元切分；3、关联规则和最小支持度：（以英文为例子，假如想从一批产品标题数据中挖掘出一系列复合串。）

2008-05-10 01:01:00 595

转载基于内容的大规模网页去重研究

基于内容的大规模网页去重研究[1]彭渊赵铁军郑德权于浩（哈尔滨工业大学机器翻译研究室，黑龙江哈尔滨 150001）摘要：本文提出了一种基于特征码和文章长度相结合的的相同内容网页的去除合并算法。有效的改进了单纯的特征码的方法的处理效率。实验证明：该种新方法能实现很高的判断准确率。并且对于文本分类也有一定的帮助。关键词：特征码搜索引擎文章长度中图法分类

2008-05-01 13:40:00 1887

转载搜索引擎重复网页发现技术分析

一. 介绍统计结果表明，近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝，有的在内容上稍作修改，比如同一文章的不同版本，一个新一点，一个老一点，有的则仅仅是网页的格式不同（如 HTML, Postscript）,文献[Models and Algorithms for Duplicate Document Det

2008-05-01 12:24:00 423

原创关于产品对象描述的思考

网页信息抽取，是垂直搜索引擎领域的一项重要技术。它是利用数据挖掘、统计分析、页面结构分析等技术，从海量网页库中抽取出结构化的有用信息（称之为记录Record）以及信息之间的关系。因此，就引入了两个问题？一个是如何度量有用的信息？另外一个是信息之间的关系什么确定？我们能不能用一种知识体系来刻画或界定呢？前些日子，刚好看了篇论文"Le

2008-05-01 11:55:00 685

Berry_-_Survey.of.Text.Mining_Clustering,.Classification,.and.Retrieval

出版社：Springer 作者:Michael W. Berry 这本书，我看了几章，感觉不错。内容提到了分类、聚类、词挖掘、趋势检测。

2009-03-14

Information Extraction in the WebEra

Springer出版的，介绍web信息抽取。

2009-03-14

Survey of Text Mining II Clustering Classification and Retrieval

Springer出版的关于文本挖掘的外文电子书。

2009-03-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 复合词挖掘

转载 基于内容的大规模网页去重研究

转载 搜索引擎重复网页发现技术分析

原创 关于产品对象描述的思考

Berry_-_Survey.of.Text.Mining_Clustering,.Classification,.and.Retrieval

Information Extraction in the WebEra

Survey of Text Mining II Clustering Classification and Retrieval

空空如也

原创复合词挖掘

转载基于内容的大规模网页去重研究

转载搜索引擎重复网页发现技术分析

原创关于产品对象描述的思考