去重算法——SpotSig算法详解(转)

原帖地址:http://blog.sina.com.cn/s/blog_67914f2901019xdt.html   一、算法思想     对文档集合进行预处理,根据比较粗的一种划分方式将文档集合进行分类。只比较同一类中的文档,从而缩短比较时间,减少运算次数。 二、算法流程 ...

2014-02-28 18:02:54

阅读数 165

评论数 0

svm支持向量机的原理(转)

   原文地址:   支持向量机通俗导论(理解SVM的三层境界)    (很详细的SVM的原理讲解,copy下来备忘)   [-] 支持向量机通俗导论理解SVM的三层境界 前言 第一层了解SVM 什么是支持向量机SVM 线性分类 分类标准 或-1分类标准的起...

2013-11-27 17:06:19

阅读数 422

评论数 0

推荐引擎相关算法(转)

  原帖:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html 备忘,转过来了   集体智慧和协同过滤 什么是集体智慧 集体智慧 (Collective Intelligence) ...

2013-01-18 16:50:40

阅读数 20

评论数 0

怎样量化评价搜索引擎的结果质量

怎样量化评价搜索引擎的结果质量   来源:InfoQ   作者:陈运文   前言   搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。 ...

2012-08-23 16:34:04

阅读数 11

评论数 0

从HTML文件中抽取正文的简单方案

作者:alexjc 译者:恋花蝶(http://blog.csdn.net/lanphaday) 原文地址:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-...

2012-03-01 15:59:22

阅读数 8

评论数 0

测试数据集,监督数据集,数据挖掘常用的数据集

常用的基本上UCI和w3c的。 关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:http://www.cs.waikato.ac.nz/ml/weka/ UCI收集的机器学习数据集ftp://pami.sjt...

2012-03-01 15:06:15

阅读数 17

评论数 0

汉语自动分词简介(转贴)

原文曾由 doubtfire张贴在 清华 BBS 语言与语言学讨论区 一、引言 1、汉语自动分词的必要性 汉语自动分词是对汉语文本进行自动分析的第一个步骤。此过程的一个主要问题是 对大量歧义现象的处理。 词是最小的、能独立活动的、有意义的语言成分。计算机的所有语言知识都来自机...

2011-12-19 17:09:51

阅读数 22

评论数 0

weka介绍(转贴)

1)Weka: Weka,一个机器学习开源项目的简称(Waikato Environment for Knowledge Analysis,http://www.cs.waikato.ac.nz/~ml/weka/ )。Weka项目从1992年开始,由新西兰政府支持,现在已在机器学习领域...

2011-10-10 14:29:45

阅读数 18

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭