数据挖掘相关
西二旗小码农
爱搜索,爱互联网,愿意为之抛头颅洒热血,搜索推荐工程师一枚。
展开
-
Rocchio算法
其基本思想是使用训练集为每个类构造一个原型向量,构造方法如下:给定一个类,训练集中所有属于这个类的文档对应向量的分量用正数表示,所有不属于这个类的文档对应向量的分量用负数表示,然后把所有的向量加起来,得到的和向量就是这个类的原型向量,定义两个向量的相似度为这两个向量夹角的余弦,逐一计算训练集中所有文档和原型向量的相似度,然后按一定的算法从中挑选某个相似度作为界。给定一篇文档,如果这篇文档与原型向量的相似度比界大,则这篇文档属于这个类,否则这篇文档就不属于这个类。Rocchio算法的突出优点是容易实现原创 2011-05-10 17:36:00 · 3492 阅读 · 0 评论 -
由Java中的Set,List,Map引出的排序技巧
一。关于概念: List接口对Collection进行了简单的扩充,它的具体实现类常用的有ArrayList和LinkedList。你可以将任何东西放到一个List容器中,并在需要时从中取出。ArrayList从其命名中可以看出它是一种类似数组的形式进行存储,因此它的随机访问速度极快,而LinkedList的内部实现是链表,它适合于在链表中间需要频繁进行插入和删除操作。在具转载 2012-02-20 17:25:42 · 727 阅读 · 0 评论 -
mahout中k-means例子的运行
首先简单说明下,mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是hadoop中的一个类,允许我们向文件中写入二进制的键值对,具体介绍请看eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&highlight=sequencefile转载 2012-01-31 10:58:17 · 2715 阅读 · 0 评论 -
MapReduce and K-Means Clustering
Google offers slides and presentations on many research topics online including distributed systems. And one of these presentations discusses MapReduce in the context of clustering algorithms.转载 2011-12-14 22:29:42 · 1061 阅读 · 0 评论 -
hadoop初学之WordCount程序一步一步运行
出处:http://blog.chinaunix.net/u3/105376/showart_2329753.html虽说现在用Eclipse下开发hadoop程序很方便了,但是命令行方式对于小程序开发验证很方便。这是初学hadoop时的笔记,记录下来以备查。1. 经典的WordCound程序(WordCount.java),见 hadoop0.18文档import jav转载 2011-11-10 00:05:32 · 1023 阅读 · 0 评论 -
蛙蛙推荐:蛙蛙教你文本聚类
蛙蛙推荐:蛙蛙教你文本聚类摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。思路:计转载 2011-11-23 15:15:02 · 1570 阅读 · 0 评论 -
海量数据面试题整理
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0……a转载 2011-11-22 10:34:11 · 643 阅读 · 0 评论 -
DBSCAN
DBSCAN (for density-based spatial clustering of applications with noise) is adata clustering algorithm proposed byMartin Ester, Hans-Peter Kriegel,Jörg Sander and Xiaowei Xu in 1996.[1] It转载 2011-11-21 12:10:43 · 1393 阅读 · 0 评论 -
DBSCAN算法的Java实现
DBSCAN是一种基于密度的聚类算法,它的基本原理就是给定两个参数,ξ和minp,其中 ξ可以理解为半径,算法将在这个半径内查找样本,minp是一个以ξ为半径查找到的样本个数n的限制条件,只要n>=minp,查找到的样本点就是核心样本点,算法的具体描述见参考文件1,下边是这个算法的java实现: 首先定义一个Point类,代表样本点 package com.sunzhenx转载 2011-11-21 11:33:50 · 8270 阅读 · 3 评论 -
数据挖掘算法总结-贝叶斯算法
<br />数据挖掘算法总结-贝叶斯算法<br /> <br /><br /><br />作者:刘伟民<br />毕业于:中科院计算所<br />职业:搜索工程师<br /><br />1. 贝叶斯分类算法定义<br />贝叶斯分类算法是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响原创 2011-05-07 13:31:00 · 1747 阅读 · 0 评论 -
数据挖掘算法总结-kmeans算法
最简单的聚类算法原创 2011-05-07 09:06:00 · 1403 阅读 · 0 评论 -
如何选择合适的数据挖掘算法
<br />如果JDM没有自动选择算法,或者数据挖掘人员想控制算法设置,就可以显式选择算法、指定设置。数据挖掘专门知识、对可用算法的了解,以及往往确定哪种算法最适合解决问题的尝试,这些都有助于选择合适的算法及设置。 <br />决策树算法<br />决策树算法是最流行的算法之一,因为很容易理解它是如何进行预测的。决策树生成的规则不但可以解释如何进行预测、为何要预测,还有助于对一个群体进行划分,即显示哪几组实例会得出某个结果。决策树广泛用于分类,有些实现的决策树还支持回归方法。 <br />决策树算法会分析一转载 2011-05-11 16:23:00 · 1847 阅读 · 0 评论 -
数据挖掘算法总结-adaboost算法
<br />定义:<br />Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。<br /> <br />基本介绍:<br />Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这 <br />Adaboost<br />些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确转载 2011-05-11 16:13:00 · 986 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。转载 2013-12-23 16:26:27 · 5567 阅读 · 0 评论