- 博客(4)
- 资源 (3)
- 收藏
- 关注
原创 复合词挖掘
1、基于特征词或标点符号的文本断串;2、N元切分;3、关联规则和最小支持度:(以英文为例子,假如想从一批产品标题数据中挖掘出一系列复合串。)
2008-05-10 01:01:00 595
转载 基于内容的大规模网页去重研究
基于内容的大规模网页去重研究[1]彭渊 赵铁军 郑德权 于浩(哈尔滨工业大学机器翻译研究室,黑龙江 哈尔滨 150001) 摘要:本文提出了一种基于特征码和文章长度相结合的的相同内容网页的去除合并算法。有效的改进了单纯的特征码的方法的处理效率。实验证明:该种新方法能实现很高的判断准确率。并且对于文本分类也有一定的帮助。 关键词:特征码 搜索引擎 文章长度中图法分类
2008-05-01 13:40:00 1887
转载 搜索引擎重复网页发现技术分析
一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Det
2008-05-01 12:24:00 423
原创 关于产品对象描述的思考
网页信息抽取,是垂直搜索引擎领域的一项重要技术。它是利用数据挖掘、统计分析、页面结构分析等技术,从海量网页库中抽取出结构化的有用信息(称之为记录Record)以及信息之间的关系。因此,就引入了两个问题?一个是如何度量有用的信息?另外一个是信息之间的关系什么确定?我们能不能用一种知识体系来刻画或界定呢? 前些日子, 刚好看了篇论文"Le
2008-05-01 11:55:00 685
Berry_-_Survey.of.Text.Mining_Clustering,.Classification,.and.Retrieval
2009-03-14
Survey of Text Mining II Clustering Classification and Retrieval
2009-03-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人