数据挖掘基础知识收集_arcgissdm-CSDN博客

A Tutorial on Clustering Algorithms-聚类小知识

俗话说：“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。所谓类，通俗地说，就是指相似元素的集合。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又将多元分析的技...

2010-05-17 13:01 阅读(190) 评论(0)

数据挖掘领域的主要会议

数据挖掘领域的主要会议【转载】 http://blogger.org.cn/blog/more.asp?name=zhaoyong04&id=24556 一流的：数据库三...

2010-05-03 22:07 阅读(223) 评论(0)

Social network & Social computing(社会网络和社会计算)

社会计算，英文为Social Computing，中文也译为社会性计算、社交计算、社交性计算等。什么是社会计算？目前对此还没有一个明确和公认的定义。笼统而言，社会计算是一门现代计算技术与社会科学之间的交叉学科。不妨从两个方面看这种学科的交叉：一方面，是研究计算机以及信息技术在社会中得到应用，从而影响传统的社会行为的这个过程。这个角度多限于微观和技术...

2010-04-03 13:42 阅读(193) 评论(0)

流行的开源数据挖掘tool

IDMer说道：本文只对几种流行的开源数据挖掘平台进行了检视，比如Weka和R等。如果您想找寻更多的开源数据挖掘软件，可以到KDnuggets和Open Directory上查看。为了评测这些软件，我们用了UCI Machine Learning Repository上的心脏病诊断数据集。 R R (http://www.r-project.org) 是用于统计分析和图形化的计算机语言及分析工具，为了保证性能，其核心计算模块是用C、C++和Fortran编写的。同时为了便于使用，它提供了一...

2010-01-20 18:27 阅读(453) 评论(0)

灰系统和模糊数学

灰系统和模糊数学扎德教授提出了模糊数学理论，邓聚龙教授提出了灰系统理论，两者都研究不确定系统，有什么区...

2009-12-05 17:18 阅读(79) 评论(0)

数据集-用于数据挖掘、信息检索、知识发现等

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.html http://www.cs.toronto.edu/~roweis/data.html http://kdd.ics.uci.edu/summary.task.type.html http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/th...

2009-11-22 13:09 阅读(354) 评论(1)

洗衣机，数据挖掘的物理模型

洗衣机，数据挖掘的物理模型昨天整洗衣机。看着大大小小新新旧旧，机身多赫然印一大字： Fuzzy Fuzzy Logic，模糊逻辑控制，大概说"只需按下启动键，从选择程序到漂洗、脱水，实现了全自动的控制。这种模糊逻辑控制的洗衣机可以自动检测洗衣内的衣物重量，从而自动选择水位和洗涤程序，这样不但大大简化了操作步骤，而且可以比较准确的配置水位和洗涤时间，节约了能源。" 看了这些就乐了。原来洗衣机还是这么一个机器学习/数据挖掘的物理模型，一个分类模型吧，输入是一大堆衣物和污渍。一个好的分类模型（洗...

2009-11-10 20:28 阅读(94) 评论(0)

数据挖掘——我们能从股市数据得出什么，以及一些算法

数据挖掘——我们能从股市数据得出什么，以及一些算法 //一个备忘录了，写给我们金融信息系统项目小组的同学。没有列出参考文献，因为都是大白话。有些删节。数据挖掘／机器学习大概处理以下几个问题：分类，这是有很多非常成熟的算法，非常直观，按照一个分类属性，把样本分为不同的类别。聚类，聚类与分类的差别在于，分类分析有一个分类属性作为输出，比如“好”、“坏”之类，但聚类没有。聚类分析探索各个样本间的内在关系，并按一定标准把它们“聚”在一块。按照有没有相应的输出分类属性，一个术语是，分类是有...

2009-11-10 19:20 阅读(227) 评论(0)

数据采集策略：数据挖掘与统计学的一个区别

数据采集策略：数据挖掘与统计学的一个区别这个观点来自Hand等人的《数据挖掘原理》（机工，2003）。说数据挖掘是对已经存在的数据进行分析（比如说“[原有]数据库中的知识发现”,KDD），而统计会为了回答某一个特定问题而专门去采集数据。也就是说，数据挖掘所分析处理的数据，不是为挖掘本身而收集的。企业为了别的目的建立数据库，为了挖掘，它再从数据库的基础上建立起为分析服务的数据仓库。转自：http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B...

2009-11-10 19:04 阅读(114) 评论(0)

Weka数据挖掘

1. 简介 WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。详见 http://www.china-pub.com/computers/common/info.asp?id=293...

2009-11-03 20:34 阅读(757) 评论(0)

weka决策树实验

首先举出打网球的例子。数据集中包含14个样本，其中9个正样本（yes），5个负样本（no）。则这些元组的期望信息（即熵）为： Info(D) = - 9/14 * log2(9/14) - 5/14 * log2(5/14) = 0.940 现在观察每个属性的期望信息需求。在属性Outlook中，对于sunny，正样本数为2，负样本数为3；对于overcast，正样本数为4，负样本数为0；对与rain，正样本数为3，负样本数为2。按照Outlook划分样例得到的期望信息为： 5/14 *...

2009-11-03 18:15 阅读(653) 评论(1)

　　复杂网络社区结构划分方法

随着对网络性质的物理意义和数学特性的深入研究，人们发现许多实际网络都具有一个共同性质，即社区结构。也就是说，整个网络是由若干个“社区”或“组”构成的。每个社区内部的结点间的连接相对非常紧密，但是各个社区之间的连接相对来说却比较稀疏[1][2]。揭示网络的社区结构，对于深入了解网络结构与分析网络特性是很重要的。如社会网络中的社区代表根据兴趣和背景而形成的真实的社会团体；引文网络中的社区代表针对同一主题的相关论文；万维网中的社区就是讨论相关主题的若干网站[3]；而生物化学网络或者电子电路中的网络社区可以是某一类...

2009-11-02 17:46 阅读(279) 评论(0)

核聚类与支持向量聚类

聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术[1]。作为一种常见的数据分析工具和无监督机器学习方法，聚类的目的是把数据集合分成若干类（或簇），使得每个类中的数据之间最大限度地相似，而不同类中的数据最大程度地不同。根据聚类算法所采用的基本思想，大致可以将它们分为五种[2]，即划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类。目前对聚类算法的研究正在不断深入，其中核聚类算法和谱聚类算法是近年来受到广泛关注的两种算法[3]。 ...

2009-11-02 17:30 阅读(220) 评论(0)

聚类分析（Clustering Analysis）

转自: http://www.sciencenet.cn/m/user_content.aspx?id=218389 ...

2009-11-02 17:03 阅读(512) 评论(0)

数据挖掘与数据抽样　

前段时间在做一个挖掘模型时，模型的特征决定了选择的数据是严重有偏的，怎样在这样的数据上进行抽样，得到能比较好地反映真实情况的数据样本是很关键的。自己对统计学仅仅限于大学课程的学习，很少做过实验，在做数据预处理走了一些弯路。下面对数据挖掘中的抽样发表一点浅见。谢谢苦瓜兄弟解答，希望和大家多多交流：）在数据挖掘的数据预处理过程中，宽表数据往往是几十万，上百万级记录的。要对所有数据进行训练，时间上很难满足要求，因此对数据进行抽样就很必要了，不同的数据抽样方法对训练结果模型的...

2009-09-26 17:25 阅读(149) 评论(1)

十大数据挖掘算法

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。1. C4.5C4.5算法是机器学...

2009-07-28 11:09 阅读(857) 评论(0)

数据预处理

现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提前数据挖掘的质量产生了数据预处理技术。　　数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。　　一、数据清理　　首先是处理空缺值，如：要分析某市场的销售和顾客数据，但顾客的income项没有记录，如何处理这类问题　　1、忽略元组:忽略整条记录　　2、人工填写空缺值：根据其它资料手工填写　　3、使用...

2009-03-23 20:37 阅读(246) 评论(0)

关于svm

名词解释：(1) SVM（Support Vector Machine）是从瓦普尼克（Vapnik）的统计学习理论发展而来的，主要针对小样本数据进行学习、分类和预测（有时也叫回归）的一种方法，能解决神经网络不能解决的过学习问题。作者以为，类似的根据样本进行学习的方法还有基于案例的推理（Case-Based Reasoning），决策树归纳算法C4.5等，以后将详细阐述这两种方法。(2)过学习问题：训练误差过小导致推广能力下降，即真实风险的增加。(3)推广能力：generalization ability，也...

2009-02-21 19:17 阅读(967) 评论(2)

关于时空挖掘方面的期刊和会议

Journals:· ACM Transactions on Database Systems· VLDB Journal· IEEE Transactions on Knowledge and Data Engineering· Information Systems· Data and Knowledge Engineering· Knowledge and Information Systems· Data...

2009-02-09 11:27 阅读(55) 评论(0)

Google视角的地理信息科学家

Google Scholar可以查询一些学者的发表和引用情况，它是基于检索的，相对于SCI，可能不那么严格，但是因为SCI只包括论文，不包括书，另外，查询引文的范围也有限，这使得不能全面反映一个学者的贡献。所以相对而言，Google Scholar尽管不太成熟，但是方向是好的。近来查询了几位地理信息科学领域“牛人”的发表和引用情况，还是比较有趣。第一个，M.F. Goodchild，被尊为地理信息科学之父，他的Geographical info...

数据挖掘实验报告-关联规则算法实验

【摘要】计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里，数据库中存储的数据急剧增大。例如，NASA轨道卫星上的地球观测系统EOS每小时会向地面发回50GB的图像数据；世界上最大的数据仓库之一，美国零售商系统Wal-Mart每天会产生2亿左右的交易数据；人类基因组数据库项目已经搜集了数以GB计的人类基因编码数据；大型天文望远镜每年会产生不少于10TB的数据，等等。大量的信息在给人们提供方便的同时也带来了一系列问题，由于信息量过大，超出人们掌握、理解...

2008-11-18 09:54 阅读(691) 评论(0)

数据挖掘实验报告-决策树程序实验

【摘要】众所周知，数据库技术从20世纪80年代开始，已经得到广泛的普及和应用。随着数据库容量的膨胀，特别是数据仓库以及web等新型数据源的日益普及，人们面临的主要问题不再是缺乏足够的信息可以使用，而是面对浩瀚的数据海洋如何有效地利用这些数据。从数据中生成分类器的一个特别有效的方法是生成一个决策树（Decision Tree）。决策树表示方法是应用最广泛的逻辑方法之一，它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树分类方法采用自顶向下的递归...

2008-11-18 09:49 阅读(673) 评论(0)

数据挖掘讲座：我所知道的一点Data Mining

赵民德 2003/01/24 　市场竞争的激烈迫使企业高层寻找更为科学、系统、有效的辅助决策技术和整体解决方案来处理日益复杂的公司事务。毫无疑问，数据挖掘就是很好的选择之一。数据挖掘到底是什么？数据挖掘作为一个过程，是否有章可循、有规可依？企业应该在哪些领域应用数据挖掘技术？目前，数据挖掘的技术咨询、系统集成、工具软件的状况究竟怎样？新年伊始，我们和中国人民大学数据挖掘中心一起精心组织推出这个专题，希望通过这个专题向读者传递实用的信息。　　Dat...

2008-11-18 09:39 阅读(146) 评论(0)

关于地理信息系统（GIS）的几个问题

进入21 世纪以后,地理信息系统主要的基础理论和技术研究热点有了新的变化,代表了地理信息系统研究的新进展,主要归纳如下: 3.1 稳定、快速的GIS 数据采集和数据更新体系 GIS 数据的来源可以包括:野外数字化采集系统、地图扫描矢量化采集系统、局域和广域差分GPS 数据采集系统、遥感数据采集和更新系统、数字摄影测量数据采集系统等。对于每一种数据采集系统的研究都将设计许多具体内容,数据源采集和更新体系是GIS 理论和技术研究的首要问题。3.2 GIS 空间数据的...

2008-11-15 10:40 阅读(94) 评论(0)

什么是GML？GML例子

从GIS公园网站上转贴。 GML是基于XML的空间信息编码标准，由OpenGIS Consortium (OGC)提出，得到了许多公司的大力支持，如Oracle、Galdos、MapInfo、CubeWerx等。运用GML，封装的地理数据和图形解释是清楚分离的。如前所述，图形解释格式包括SVG、VML和X3D等。 GML基于文本表示地理信息文本比较简单、直观，容易理解和编辑。已经在空间信息和三维显示上得到广泛应...

2008-11-15 10:25 阅读(177) 评论(0)

基于空间数据库的空间数据管理

GIS空间数据管理已经走出了文件管理的模式（龚健雅，2004）。最初的GIS 软件一般采用文件方法管理矢量图形数据，利用关系数据库管理系统管理属性数据。目前主要的GIS软件都采用了商用关系数据库管理系统同时管理图形和属性数据。如SuperMAP、MapGIS、Geostar 、ArcGIS、Geomedia等。利用商用关系数据库管理系统管理空间数据存在两种模式，一种是GIS软件商在纯关系数据库管理系统基础上，开发一个空间数据管理的引擎，利用关系数据库提供的Blob字段存贮二进制的坐标数据，一个空...

2008-11-15 10:15 阅读(251) 评论(0)

Gis 热点技术分析

GIS是一项和众多IT技术相关，而又有着浓厚测绘、制图、地理等各类地学学科背景的技术。它是科学家手中的显微镜，也是百姓出行的指南针；它是将军运筹帷幄的沙盘，也是出租车司机的导航仪；它上能助神六飞天，下能监测印度洋海啸；它大能纵观全球，小能观察办公室布局。2005年中，GIS行业的资深公司仍在不断寻找新的技术突破点；怀抱利器的小公司欲挺身而入一展宏图；IT行业的巨人跻身GIS领域大象起舞。在不断拓展的行业应用背景下，在IT巨头插手的身影中，在这寒冷的岁末年初，GIS技术的发展方向变得越加微妙和难以把握……平台...

2008-11-14 16:18 阅读(59) 评论(0)

[转]GIS开发平台的未来 —— .NET还是J2EE?

在GIS开发领域，从底层开发到应用系统，从数据采集到空间分析，从单机应用到网络发布，我们是否真的需要.NET或J2EE?尽管四周一片鼓噪之声，尽管已经有了转换平台的成功先例，我们依然需要冷静的考虑，慎重地抉择。因为GIS作为一类跨数据库和图形显示两大计算机科学研究领域的专业软件，应用领域太广，我们开发者需要考虑的东西太多。　　我们可以把GIS的开发分成几个层次：数据、基础软件平台、应用业务逻辑和数据表现。为了便于快速构建GIS应用系统，GIS平台开发商提供了种类繁多的二次开发语言，...

2008-11-14 16:03 阅读(80) 评论(0)

地理信息系统（GIS）

地理信息系统又称GIS(Geographic information system)系统。 GIS 是一门综合性学科,已经广泛的应用在不同的领域，是用于输入、存储、查询、分析和显示地理数据的计算机系统，可以分为以下五部分：　　o 人员，是GIS中最重要的组成部分。开发人员必须定义GIS中被执行的各种任务，开发处理程序。熟练的操作人员通常可以克服GIS软件功能的不足，但是相反的情况就不成立。最好的软件也无法弥补操作人员对GIS的一无所知所带来的负作用。　　o 数据，精...

2008-11-01 17:00 阅读(73) 评论(0)

3S基本概念

一、什么是"3S"技术？　　"3S"技术是英文遥感技术（Remote Senescing RS）、地理信息系统（Geographical information System GIS）、全球定位系统（Global Positioning System GPS）这三种技术名词中最后一个单词字头的统称。二、为什么"3S"技术"走到了"一起？...人类有一个梦想，就是想只用一种方法，就把世间一切事物都管起来。而遥感技术（RS）、地理信息系统...

2008-11-01 16:38 阅读(65) 评论(0)

空间数据挖掘的主要方法总结

空间数据挖掘是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系，并发现其中有用的特征和模式的理论、方法和技术。空间数据挖掘和知识发现的过程大致可分为以下多个步骤:数据准备、数据选择、数据预处理、数据缩减或者数据变换、确定数据挖掘目标、确定知识发现算法、数据挖掘、模式解释、知识评价等，而数据挖掘只是其中的一个关键步骤。但是为了简便，人们常常用空间数据挖掘来代替空间数据挖掘和知识发现。常用的空间数据挖掘方法主要有：1.基于概率论的方法。这是一种通过计算...

2008-10-29 20:03 阅读(277) 评论(0)

SVM的发展和研究热点

支持向量机的发展自从90年代初经典SVM的提出，由于其完整的理论框架和在实际应用中取得的很多好的效果，在机器学习领域受到了广泛的重视。其理论和应用在横向和纵向上都有了发展。理论上：1.模糊支持向量机，引入样本对类别的隶属度函数，这样每个样本对于类别的影响是不同的，这种理论的应用提高了SVM的抗噪声的能力，尤其适合在未能完全揭示输入样本特性的情况下。2．最小二乘支持向量机。这种方法是在1999年提出，经过这几年的发展，已经应用要很多相关的领域。研究的问题已经推广到：对于大规模数据集的处理；处理数据的鲁棒性；参...

2008-10-24 11:40 阅读(179) 评论(0)

空间数据挖掘技术理论及方法

葛继科（西南农业大学信息学院　400716）摘要本文简要论述了空间数据库技术及空间数据挖掘技术的理论及特点，分析了空间数据挖掘技术的层次、方法，并重点介绍了当前常用的分类、聚类、关联规则等空间数据挖掘方法，指出了当前空间数据挖掘技术中尚需解决的问题、发展趋势及方向。关键词　空间数据挖掘　分类　聚类　关联规则　0 引言地理信息系统(Geographic Information System，简称GIS)是计算机科学、地理学、测量学、...

2008-10-23 16:39 阅读(315) 评论(0)

数据挖掘语言浅析

zhujianqiu@hotmail.com朱建秋, 张晓辉, 蔡伟杰, 朱扬勇（复旦大学计算机科学系, 上海, 200437）【摘要】本文介绍了几种数据挖掘语言及其标准化方面的研究进展，提出了数据挖掘语言分类的方法，在此基础上，对数据挖掘语言的结构和组成进行了探讨和研究，最后指出了数据挖掘语言的发展趋势，以及若干待解决的问题。【关键词】数据挖掘，查询语言，建模语言，XML 1. 引言随着网络技术的发展和计算机使用的日益广泛，电子化数据越来越多，人们正面临“数据丰富而知识贫乏”...

2008-10-23 16:00 阅读(154) 评论(0)

空间数据挖掘

空间数据挖掘是多学科和多种技术交叉综合的新领域，其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。1、空间分析方法　　利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工，从而产生新的信息和知识。常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等，可发现目标在空间上的相连、相邻和共生等关联规则，或发现目标之间的最短路径、最优路径等辅助决策知识。2、统计分析方...

2008-10-23 11:08 阅读(117) 评论(0)

数据挖掘中分类算法小结

数据仓库，数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据分析形式，它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法（Classification）用于预测数据对象的离散类别（Categorical Label）；预测方法（Prediction ）用于预测数据对象的连续取值。分类技术在很多领域都有应用，例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估；当前的市场营销中很重要的一个...

2008-10-21 22:00 阅读(212) 评论(0)

SVM

在这里介绍一些学习支持向量机的网站，我个人觉得挺有用。SVM的理论，个人觉得看下:A《支持向量机导论》（第一本专门介绍SVM的著作）和B《数据挖掘中的新方法－支持向量机》（国内第一本SVM专著）这两本书就可以了，当然有兴趣也可以看下Vapnic的《统计学习理论的本质》和《统计学习理论》。我只认真看过A，这本书介绍的比较简单，初学容易理解些；B据说挺好，我两个师兄认真看过，对SVM介绍的非常详细，建议看。我平时的工作其实不在SVM，我现在主要的工作是图像分类，关键是要做特征提...

2008-10-21 21:48 阅读(174) 评论(0)

聚类概念

俗话说：“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。所谓类，通俗地说，就是指相似元素的集合。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析...

关联规则研究现状

自从R.Agrawal等人于1993年提出关联规则的挖掘问题后，众多的研究者对该问题进行了大量的研究，到目前为止主要的研究方向包括：多循环方式挖掘算法（层次挖掘算法）、增量式更新算法、分布、并行式挖掘算法、多层关联规则的挖掘算法、多值关联规则的挖掘算法、基于概念格的关联规则挖掘算法等。多循环方式挖掘算法的核心思想是“层次算法(level-wise algorithms)”，顾名思义是算法将整个挖掘过程分成若干层次，待各层次挖掘完成，再组合成最后的结果。这类算法包括Agraw...

2008-10-19 16:47 阅读(387) 评论(0)

数据挖掘能做什么

数据挖掘不仅能对过去的数据进行查询和遍历，并且能够对将来的趋势和行为进行预测，并自动探测以前未发现的模式，从而很好地支持人们的决策。被挖掘出来的信息，能够用于信息管理、查询处理、决策支持、过程控制以及许多其它应用。数据挖掘按其功能划分主要包括以下几类： (1) 分类分类是数据挖掘中应用的最多的方法。分类是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，一般用规则或决策树模式表示。一个类的内涵描述分为特征性描述和区别性描述。特...

2008-10-19 15:54 阅读(126) 评论(0)

一位数据挖掘成功人士给数据挖掘在读研究生的建议

关于数据挖掘方面的研究，我原来也走过一些弯路。其实从数据挖掘的起源可以发现，它并不是一门崭新的科学，而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成，同时与专家系统、知识管理等研究方向不同的是，数据挖掘更侧重于应用的层面。因此来说，数据挖掘融合了相当多的内容，试图全面了解所有的细节会花费很长的时间。因此我建议你的第一步是用大概三个月的时间了解数据挖掘的几个常用技术：分类、聚类、预测、关联分析、孤立点分析等等。这种了解是比较粗的，目标是明白这些技术是用来干什...

2008-10-19 12:55 阅读(137) 评论(1)

商务智能

　商务智能的定义不说多如牛毛，也是众说纷纭。人们对商务智能的理解如同那七个印度盲人对大象的理解：有人认为它是高级管理人员信息系统（EIS），有人认为它是管理信息系统（MIS），有人认为它是决策支持系统（DSS）；有人说它是数据库技术，有人说它是数据仓库，有人说它是数据集市，有人说它是数据整合与清洗工具，有人说它是查询和报告工具，有人说它是在线分析处理工具，有人说它是数据挖掘，有人说它是统计分析；有人把它当作分析性ERP, 有人把它当作分析性CRM, 有人把它当作分析性SCM, 有人把它当作企业绩效管理，有...

2008-10-18 11:46 阅读(40) 评论(0)

数据挖掘在企业中应用的四种途径

数据激增是当今社会的一大特性，如何有效的利用数据挖掘方法，从海量信息中提取出有用的模式和规律而不仅仅是“望洋兴叹”，已经成为人们迫切的需求。企业应该将数据挖掘视为一大法宝，利用它将数据转化为商业智能，提高企业的核心竞争力。从投资的角度来看，如果对数据研究所支付的费用少于研究成果所带来的价值，数据挖掘就值得去做。正如修行的省悟过程一样，要将数据挖掘引入公司，并非只有一种途径。我们的最终目的是解决企业的业务问题，为企业提供更大的商机。本文简要介绍了将数据挖掘技术应用到企业中的四种有效途径。<b...

2008-10-15 21:00 阅读(99) 评论(0)

数据挖掘网络资源集合

JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/transactions/tkde.htmACM TODS http://www.acm.org/tods/VLDB Jour...

2008-10-15 13:50 阅读(61) 评论(0)

人工智能、机器学习、数据挖掘著名会议

人工智能、机器学习、数据挖掘著名会议...

2008-10-11 23:09 阅读(243) 评论(0)

数据挖掘

致力于该领域研究的一些主要会议包括ACM SIGKDD知识发现与数据挖掘国际会议（KDD）、IEEE数据挖掘国际会议（ICDM）、SIAM数据挖掘国际会议（SDM）、欧洲数据库中知识发现的原理与实践会议（PKDD）和亚太知识发现与数据挖掘会议（PAKDD）。数据挖掘的文章也可以在其他主要会议上找到，如ACM SIGMOD/PODS会议、超大型数据库国际会议（VLDB）、信息与知识管理会议（CIKM）和数据工程国际会议（ICDE）、机器学习国际会议（ICML）以及人工智能全国学术会议（AAAI）。...

2008-10-11 22:44 阅读(132) 评论(0)

模式识别

模式识别又常称作模式分类，从处理问题的性质和解决问题的方法等角度，模式识别分为有监督的分类（Supervised Classification）和无监督的分类(Unsupervised Classification)两种。...

2008-10-11 22:15 阅读(73) 评论(0)

数据库闯新世纪----施伯乐、周傲英、朱杨勇

  　　自1969年美国的ibm公司开发出第一个dbms系统ims以来，数据库系统便在计算机的发展过程中扮演举足轻重的角色。从层次型数据库系统到网络型数据库系统，再到现在成为数据库主流的关系型数据库系统，无不是受到业界的广泛关注。进入80年代以后，随着计算机硬件技术的提高，计算机应用不断深入，产生了许多新的应用领域，如：计算机辅助设计、计算机集成制造、地理信息系统、办公自动化等等。这些新的应用领域对数据库系统提出了新要求。出现了工程数据库、多媒体数据库、模糊数据库、地理数据库...

2008-09-29 09:03 阅读(238) 评论(0)

国外博士论文下载

http://search.ohiolink.edu/etd/index.cgi <S...

2008-08-04 12:42 阅读(1563) 评论(0)

AI conference

-1: IJCAI (1+): International Joint Conference on Artificial Intelligence AAAI (1): National Conference on Artificial Intelligence COLT (1): Annual Conference on Computational Learning Theory CVPR (1): IEEE International Conference on Computer Vision a...

2008-08-02 11:12 阅读(284) 评论(0)

DM中一个热门问题的解惑

数据挖掘作为近年来新兴的一门计算机边缘学科，在我国也逐渐引起了越来越多人的关注，各种学术及应用文章如汗牛充栋，令人眼花缭乱。但数据挖掘究竟是什么？人们常常挂在嘴边的数据挖掘建模本质上又指的什么？笔者得到的反馈常是模棱两可、凌乱抽象的时髦词汇的堆砌。本文及后续的系列专栏文章无意也无力于澄清所有的概念，仅作为抛砖引玉，为渴望入门或跟作者一样曾经陷于学界高深莫测的概念泥潭中不能自拔的理想青年尽微薄之力。我将从以下五个方面探讨。（一）数据挖掘是什么（二）数据挖掘不是什么 ...

2008-07-29 16:43 阅读(75) 评论(0)

Data Mining的十种分析方法

10.罗吉斯回归分析（Logistic Analysis）　　当区别分析中群体不符合常态分配假设时，罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件（event）是否发生，而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状，当自变量很小时，机率值接近为零；当自变量值慢慢增加时，机率值沿着曲线增加，增加到一定程度时，曲线协率开始减小，故机率值介于0与1之间。...

2008-07-29 16:33 阅读(106) 评论(0)

文本特征提取方法研究

文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文...

2008-07-29 16:13 阅读(776) 评论(2)