数据挖掘与信息检索
__jenny
这个作者很懒,什么都没留下…
展开
-
数据挖掘相关的10个问题
NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data M转载 2009-04-16 01:54:00 · 511 阅读 · 0 评论 -
数据挖掘十大经典算法
<br /><br />国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.<br />不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响转载 2010-12-20 10:28:00 · 568 阅读 · 0 评论 -
数据挖掘的数据集资源
<br /><br />转:http://bbs.w3china.org/blog/more.asp?name=idmer&id=24017<br />大家做数据挖掘研究时,常常为找不到合适的数据而发愁。在KDNuggets上有Datasets栏目,提供一些数据集,网址为:http://www.kdnuggets.com/datasets/<br />还有另外一个很好的资源网址为:http://kdd.ics.uci.edu/,里面包含的数据资源如下(按应用领域划分):<br />Direct Market转载 2010-12-20 10:06:00 · 845 阅读 · 0 评论 -
探索Google App Engine背后的奥秘(2)--Google的整体架构猜想
按:此为客座博文系列。投稿人吴朱华曾在IBM中国研究院从事与云计算相关的研究,现在则致力于云计算技术。本文是基于现有的公开资料和个人的经验来对Google的整体架构进行总结和猜想。在软件工程界,大家有一个共识,那就是"需求决定架构",也就是说,架构的发展是为了更好地支撑应用。那么本文在介绍架构之前,先介绍一下Google所提供的主要产品有哪些?产品对于Google和它几个主要产品,比如搜索和邮件等,大家已经非常熟悉了,但是其提供服务的不只于此,并主要可分为六大类:各种搜索:网页搜索,图片转载 2010-06-07 20:15:00 · 513 阅读 · 0 评论 -
探索Google App Engine背后的奥秘(1)--Google的核心技术
作者: ikewu | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://www.dbanotes.net/arch/google_app_engine1--google.html按:此为客座博文系列。投稿人:吴朱华先生。本系列是基于公开资料对Google App Engine是如何实现的这个话题进行深度探讨。而且在切入Google App Engine之前,首先会对Google的核心技术和其整体架构进行分析,以帮助大家之后更好地理解Google App Engine的转载 2010-06-07 20:11:00 · 629 阅读 · 0 评论 -
浅析云计算的七种应用类型
云计算如今已成为又一风靡的概念。与很多同行一样,Gartner资深分析师Ben Pring认为:“云计算就像法国大餐一样正被人们津津乐道。”然而,问题在于(类似Web 2.0一样),似乎每个人对云计算的定义都有不同之处。 如果说,用“云”来暗喻Internet互联网还可以理解的话,那么当“云”与“计算”联合起来后,其含义就变得庞杂而模糊了。一些分析师和厂商狭隘的将云计算定义成——由虚转载 2009-12-26 16:21:00 · 903 阅读 · 0 评论 -
pagerank
什么是pagerank PageRank(网页级别),2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(LarryPage)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的转载 2009-12-22 16:29:00 · 513 阅读 · 0 评论 -
网络蜘蛛及搜索引擎基本原理
搜索引擎的工作原理大致可以分为: 搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器人便可以遍历绝大部分网页。转载 2009-12-19 18:49:00 · 933 阅读 · 0 评论 -
zz搜索引擎重复网页发现技术分析
一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Documen转载 2009-12-04 19:29:00 · 499 阅读 · 0 评论 -
数据中心的虚拟化与云计算
数据中心是企业的核心竞争力之一,可靠高效的数据中心是确保企业正常运转的核心基础设施之一。但由于企业的快速发展,数据中心的规模也是不断扩张,带来了很多的问题。 在同企业信息部门的交流中,经常发现对数据中心的抱怨:抱怨不好管理,抱怨维护高昂,抱怨升级痛苦…也走进了许多数据中心,深为里面的“万国旗”而震动:采购直不同时期,不同品牌不同配置的硬件,不同版本不同参数的软件…也见过整洁划一的数据转载 2009-11-14 12:04:00 · 588 阅读 · 0 评论 -
搜索引擎
搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息转载 2009-09-06 19:29:00 · 428 阅读 · 0 评论 -
太激动了。。
<br /> <br /> <br /> <br /> 论文有想法啦!好激动啊!!!<br /> <br /> 那一刻的心情,真的好开心。。。<br /> <br /> 这几天赶紧coding实现看下效果~~<br /> <br /> 加油加油!!原创 2011-04-20 15:39:00 · 352 阅读 · 0 评论