数据挖掘
文章平均质量分 88
??107
这个作者很懒,什么都没留下…
展开
-
数据挖掘算法
数据挖掘算法整体框架:转载 2014-10-07 12:36:02 · 285 阅读 · 0 评论 -
ID3
基本思想:角度1. 越是小型的决策树越优于大的决策树(尽管如此该算法也不是总是生成最小的树形结构)角度2. 引入信息论中互信息(信息增益),作为判别因素的度量,即:以信息熵的下降速度作为选取测试属性的标准,所选的测试属性是从根到当前节点的路径上尚未被考虑的具有最高信息增益的属性转载 2014-10-07 12:38:59 · 399 阅读 · 0 评论 -
遗传算法
遗传算法安德森、转载 2014-10-07 18:28:15 · 554 阅读 · 0 评论 -
数据挖掘算法----分类算法(ID3和C4.5)
分类与聚类,监督学习与无监督学习 在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是聚类,以及都包含哪些具体算法或问题。Classification (分类),对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,转载 2014-10-07 16:14:40 · 1144 阅读 · 0 评论 -
遗传算法
遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。 一.进化论知识 作为遗传算法生物背景的介绍,下面内容了解即可: 种群(Population):生物的进化以群体的形式进行,这样的一个群体称为种群。 个体转载 2014-10-07 18:19:38 · 301 阅读 · 0 评论 -
hadoop和spark集成环境搭建
本人使用的是Ubuntu系统:ubuntu-12.04-desktop-i386.iso 和虚拟机VMwareworkstation-v9.0.1。 搭建的hadoop和spark所需要准备的资料分别有: jdk-7u51-linux-i586.tar.gz hadoop-2.2.0.tar.gz scala-2.11.2.tgz spark-1.0.2-bin-hadoop2.tgz原创 2015-08-08 10:34:01 · 1500 阅读 · 0 评论