jiutianhe的专栏

声明：本博客乃学习笔记，没有纯粹无意义的转载。作者除了对自己负责，不对任何读者负责，欢迎指出文章错误

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载数据挖掘十大经典算法(10) CART: 分类与回归树

如果一个人必须去选择在很大范围的情形下性能都好的、同时不需要应用开发者付出很多的努力并且易于被终端用户理解的分类技术的话，那么Brieman, Friedman, Olshen和Stone（1984）提出的分类树方法是一个强有力的竞争者。我们将首先讨论这个分类的过程，然后在后续的节中我们将展示这个过程是如何被用来预测连续的因变量。Brieman等人用来实现这些过程的程序被称为分类和回归树（CART

2014-08-12 18:59:09 1037

转载数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

贝叶斯分类器　　贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种，分别是：Naive Bayes、TAN、BAN和GBN。　　贝叶斯网络是一个带有概率注释的有向无环图，图中的每一个结点均表示一个随机变量,图中两结点间若存在着一条弧，则表示这两结点相对

2014-08-12 18:58:07 727

转载数据挖掘十大经典算法(8) kNN: k-nearest neighbor classification

邻近算法 KNN算法的决策过程　　k-Nearest Neighbor algorithm 　　右图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。　　K最近邻(k-Nearest Neighbor，KNN)

2014-08-12 18:57:18 789

转载数据挖掘十大经典算法(4) The Apriori algorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。 Apriori演算法所使用的前置统计量包括了：最大规则物件数：规则中物件组所包含的最大物件数量最小支援：规则中物件或是物件组必顸符合的最低案例数最小信心水准：计

2014-08-12 18:56:45 761

转载数据挖掘十大经典算法(7) AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

2014-08-12 18:56:43 708

转载数据挖掘十大经典算法(6) PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。　　Google的 PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投

2014-08-12 18:56:07 1556

转载数据挖掘十大经典算法(3) Support vector machines

支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器.他们也可以认为是提克洛夫规范化（Tikhonov Regularization）方法的一个特例.这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区.因此支持向量机也被称为最大边缘区分类

2014-08-12 18:55:50 828

转载数据挖掘十大经典算法(5) 最大期望(EM)算法

在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），也就是将隐藏变量象能够观测

2014-08-12 18:55:16 825

转载数据挖掘十大经典算法

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法，其实参加评选的18种算法，

2014-08-12 18:53:37 672

转载数据挖掘十大经典算法(2) The k-means algorithm

k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k 　　假设有k个群组Si, i=1,2,...,k。μi是群组Si内所有元素xj的重心，或叫中心点。　　k平均聚类发明于1956年，该算法最常见的形式是采用被称为劳埃德算法(Lloyd algorithm)的迭代式改进探索法。劳埃德算法首先把输入点分成k个初始化分组，可以是随机的或者使用一些

2014-08-12 18:53:08 810

转载数据挖掘十大经典算法(1) C4.5

机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。决策树学习也是数据挖掘中一个普通的

2014-08-12 18:52:24 739

遗传算法求解01背包问题论文

01背包问题属于组合优化问题的一个例子，求解01背包问题的过程可以被视作在很多可行解当中求解一个最优解。

2011-04-23

身份认证技术分析论文

认证技术是信息安全中的一个重要内容，在“网络与信息安全”课程中我们学习了两种认证技术：消息认证与身份认证，消息认证用于保证信息的完整性与抗否认性，身份认证则用于鉴别用户身份。

2011-04-23

网络信息安全信息理论

这里是网络信息安全，信息架构，信息采集的专业需要的信息。有各种各样的信息按群信息六条的问题。

2011-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人