jisuanbbs-CSDN博客

转载贝叶斯分类分类算法

•朴素贝叶斯分类的工作过程如下：•(1) 每个数据样本用一个n维特征向量X= {x1，x2，……，xn}表示，分别描述对n个属性A1，A2，……，An样本的n个度量。•(2) 假定有m个类C1，C2，…，Cm，给定一个未知的数据样本X（即没有类标号），分类器将预测X属于具有最高后验概率（条件X下）的类。也就是说，朴素贝叶斯分类将未知的样本分配给类Ci（1≤i≤m）当且仅当P(Ci|X)

2012-05-20 16:58:47 985

ID3算法是J. Ross Quinlan在1975提出的分类预测算法，当时还没有数据挖掘吧，哈哈哈。该算法的核心是“信息熵”,属于数学问题，我也是从这里起发现数据挖掘最底层最根本的不再是编程了，而是数学，编程只是一种实现方式而已，数学才是基础，如：朴素贝叶斯分类，小波聚类，尤其是我正在搞的支持向量机，它就是高等代数，空间解析几何，概率统计的综合应用。记得读本科时，朱琛学姐说过,数学学得再好也不为

2012-05-13 19:33:28 651

转载几个免费的数据挖掘软件

OrangeOrange 是一个基于组件的数据挖掘和机器学习软件套装，它的功能即友好，又很强大，快速而又多功能的可视化编程前端，以便浏览数据分析和可视化，基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。其由C++ 和 Python开发，它的图形库是由跨平台的Qt框架开发。RapidMi

2012-05-03 10:01:08 844

转载数据挖掘算法

ang Ye 2006.8一,概念和术语1.1 数据挖掘 / 知识发现(1)数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程.(2)数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Databases)或知识发现,它是一个从大量数据中抽取挖掘出未知的,有价值的模式或规律等知识的非平凡过程,它与数据仓库有着密切的联系.(3)广义的数据挖掘是指

2012-05-03 09:41:57 4318

转载数据堂

http://www.datatang.com/

2012-05-03 09:39:41 723

转载数据挖掘的数据集资源

来自互联网：1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.t

2012-05-03 09:39:05 589

转载最大似然估计

http://wenku.baidu.com/view/9f8c428271fe910ef12df8e0.html

2012-04-25 15:10:39 477

转载 EM算法

EM算法所谓EM算法，指的是就是Expect-Maximum算法，是一种非常有用的算法。假设这么一个问题，我们有一堆样本集合X，我们已知该样本总体的分布类型（比如是高斯分布），但是我们不知道这个分布的参数具体是多少，我们希望有方法能够根据这些观测到的样本集合来估计出这个分布的参数。怎么办呢？于是就有了极大似然估计，该方法思路很简单，计算出这些样本出现的分布概率公式，该公式肯

2012-04-25 14:08:24 2695 1

转载 Pearson's Correlation Coefficient

Pearson相关系数用来衡量两个数据集合之间的相似性。比如在一个关于电影的资料网站中，很多用户都可能对其中的电影进行打分。Pearson相关系数可以用来帮助更好的找到兴趣相似的用户，从而进行相关的推荐。这种推荐的基本思路是如果A和B兴趣相似，那么A喜欢看的，B就有很大可能会喜欢看，就可以把A的喜欢看的推荐给B。假设电影库中5部电影，A和B都对其中的部分进行了打分（5分为满分），A的分数是[3

2012-04-24 21:08:12 684

转载数据挖掘中的常用聚类算法

数据挖掘中的常用聚类算法2008-12-01 13:50聚类相关的概念：相似性、距离度量（单连接、全连接、平均、质心、中心）、异常点算法分类：层次算法、划分算法层次算法：（凝聚、分裂）、谱系图的概念简单的凝聚算法——最近邻聚类：自增距离d至阀值、每次合并距离基于mst的层次凝聚聚类：从生成的mst上，根据距离合并簇分裂：基于mst的分裂，与上

2012-04-17 10:22:18 3322

转载贪心算法——最小生成树

设G = (V,E)是无向连通带权图，即一个网络。E中的每一条边（v,w）的权为c[v][w]。如果G的子图G’是一棵包含G的所有顶点的树，则称G’为G的生成树。生成树上各边权的总和称为生成树的耗费。在G的所有生成树中，耗费最小的生成树称为G的最小生成树。构造最小生成树的两种方法：Prim算法和Kruskal算法。

2012-04-16 20:52:50 757

转载倒排索引

倒排索引（inverted index），也常被称为反向索引、植入档案或反向档案，是一种索引方法，被用来存储在在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。

2012-04-15 20:24:49 576

转载胡适的毕业生赠言

这一两个星期里，各地的大学都有毕业的班次，都有很多的毕业生离开学校去开始他们的成人事业。学生的生活是一种享有特殊优待的生活，不妨幼稚一点，不妨吵吵闹闹，社会都能纵容他们，不肯严格的要他们负行为的责任。现在他们要撑起自己的肩膀来挑他们自己的担子了。在这个困难最紧急的年头，他们的担子真不轻!我们祝他们的成功，同时也不忍不依据我们自己的经验，赠与他们几句送行的赠言，——虽未必是救命毫毛，也许作个防身的锦

2012-04-15 10:32:51 2430

jisuanbbs的专栏