![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
文章平均质量分 65
eric509
这个作者很懒,什么都没留下…
展开
-
weka介绍(转贴)
1)Weka: Weka,一个机器学习开源项目的简称(Waikato Environment for Knowledge Analysis,http://www.cs.waikato.ac.nz/~ml/weka/)。Weka项目从1992年开始,由新西兰政府支持,现在已在机器学习领域大名鼎鼎。Weka里有非常全面的机器学习算法,包括数据预处理、分类、回归、聚类、关联规则等。Wek...原创 2011-10-10 14:29:45 · 290 阅读 · 0 评论 -
汉语自动分词简介(转贴)
原文曾由 doubtfire张贴在 清华 BBS 语言与语言学讨论区一、引言1、汉语自动分词的必要性汉语自动分词是对汉语文本进行自动分析的第一个步骤。此过程的一个主要问题是对大量歧义现象的处理。词是最小的、能独立活动的、有意义的语言成分。计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子...原创 2011-12-19 17:09:51 · 856 阅读 · 0 评论 -
测试数据集,监督数据集,数据挖掘常用的数据集
常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:http://www.cs.waikato.ac.nz/ml/weka/UCI收集的机器学习数据集ftp://pami.sjtu.edu.cnhttp://www.ics.uci.edu/~mlearn/\MLRep...原创 2012-03-01 15:06:15 · 192 阅读 · 0 评论 -
从HTML文件中抽取正文的简单方案
作者:alexjc译者:恋花蝶(http://blog.csdn.net/lanphaday)原文地址:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/ 译者导读:这篇文章主要介绍了从不同类...原创 2012-03-01 15:59:22 · 91 阅读 · 0 评论 -
怎样量化评价搜索引擎的结果质量
怎样量化评价搜索引擎的结果质量 来源:InfoQ 作者:陈运文 前言 搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。 搜索引擎结果的好坏与否,体现在业界所称的在相关性(Relevance)上。相关性的定义包括狭义和广...原创 2012-08-23 16:34:04 · 174 阅读 · 0 评论 -
推荐引擎相关算法(转)
原帖:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html备忘,转过来了 集体智慧和协同过滤什么是集体智慧集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web 应用中利用集体智慧构建更...原创 2013-01-18 16:50:40 · 687 阅读 · 0 评论 -
去重算法——SpotSig算法详解(转)
原帖地址:http://blog.sina.com.cn/s/blog_67914f2901019xdt.html 一、算法思想 对文档集合进行预处理,根据比较粗的一种划分方式将文档集合进行分类。只比较同一类中的文档,从而缩短比较时间,减少运算次数。二、算法流程 对于一篇文档,先对其进行预处理,获得其spot signature集,该集合是一个多重集合...原创 2014-02-28 18:02:54 · 1197 阅读 · 0 评论