数据挖掘
文章平均质量分 77
liyangbing315
勤奋,热情,潇潇洒洒度人生!
展开
-
数据挖掘概述
数据挖掘一数据挖掘的定义:按企业既定的业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的商业规律,且进一步将其模式化的数据处理和方法。它最吸引人的地方就是能够建立预测型模型而不是回顾性模型。传统的数据分析工具的分析的重点是在于向管理人员提供过去已经发生了什么,描述过去的事实,而挖掘工具的目的在于预测未来的情况。数据挖掘与数据仓库的关系: 首先,由于大多数数据原创 2010-03-31 22:44:00 · 1178 阅读 · 0 评论 -
统计类数据挖掘
统计类数据挖掘技术统计:借助于数学模型手段,对数据进行那个归纳、推断和预测,寻找数据间的模式。统计研究中的抽样推断方法,相关与回归分析方法,统计推算与预测,统计假设检验等方法。u 统计类数据挖掘技术:l 数据的聚集和度量技术聚集函数,count(),sum(),avg(),max(),min()等,这些函数在数据挖掘中发挥着重要的统计作用。count()用于统计对象的个数,su原创 2010-03-31 22:45:00 · 3217 阅读 · 0 评论 -
知识类数据挖掘技术
知识类数据挖掘技术在用统计分析类数据挖掘技术进行数据分析时,企业管理人员或管理顾问必须在分析开始之前就知道变量是什么,他们需要分析什么。如果他们不知道所分析的对象或对所分析的变量不清楚,那就很难对数据仓库中如此众多的数据和对象采用统计类数据挖掘技术进行商业分析。但是他们往往凭直觉,感到在数据背后隐藏着某些市场规律和商业知识。此时,统计类数据挖掘工具就难以承担重任,人们就不会对手中的数据挖掘技术原创 2010-03-31 22:46:00 · 2459 阅读 · 0 评论 -
贪心算法
贪心算法定义 所谓贪心算法是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅是在某种意义上的局部最优解。 贪心算法不是对所有问题都能得到整体最优解,但对范围相当广泛的许多问题他能产生整体最优解或者是整体最优解的近似解。 贪心算法的基本思路如下: 1.建立数学模型来描述问题。 2.把求解的问题分成若干个子问题。原创 2010-05-06 16:26:00 · 1136 阅读 · 0 评论 -
P,NP,NPc
P,NP,NPc首先说个基本概念----时间复杂度:并不是表示一个程序解决问题需要花多少时间,而是当问题规模扩大后,程序需要的时间长度增长得有多快。具有O(1)的时间复杂度,也称常数级复杂度;数据规模变得有多大,花的时间也跟着变得有多长,这个程序的时间复杂度就是O(n),比如找n个数中的最大值;而像冒泡排序、插入排序等,数据扩大2倍,时间变慢4倍的,属于O(n^2)的复杂度。还有一些穷举类的算转载 2010-05-06 16:29:00 · 1528 阅读 · 0 评论 -
决策树算法
决策树算法基本定义决策树算法是一种逼近离散函数值的方法。 算法优点 决策树算法的优点如下: (1)分类精度高; (2)成的模式简单; (3)对噪声数据有很好的健壮性。 因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注。 基本原理 决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3原创 2010-05-06 14:45:00 · 1954 阅读 · 0 评论 -
遗传算法概述
遗传算法概述遗传算法定义 遗传算法是从代表问题可能潜在的解集的一个种群(population)开始的,而一个种群则由经过基因(gene)编码的一定数目的个体(individual)组成。每个个体实际上是染色体(chromosome)带有特征的实体。染色体作为遗传物质的主要载体,即多个基因的集合,其内部表现(即基因型)是某种基因组合,它决定了个体的形状的外部表现,如黑头发的特征是由染色体中原创 2010-05-06 14:47:00 · 1564 阅读 · 0 评论 -
旅行商问题和背包问题
经典问题u 什么是旅行商问题 旅行商问题(Traveling Saleman Problem,TSP)又译为旅行推销员问题、货郎担问题,简称为TSP问题,是最基本的路线问题,该问题是在寻求单一旅行者由起点出发,通过所有给定的需求点之后,最后再回到原点的最小路径成本。最早的旅行商问题的数学规划是由Dantzig(1959)等人提出。 TSP问题在物流中的描述是对应一个物流配送公司,原创 2010-05-06 16:28:00 · 16397 阅读 · 1 评论