- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 层次聚类(二)
一、层次聚类首先考虑欧式空间下的层次聚类。该算法仅可用于规模相对较小的数据集。层次聚类用于非欧式空间时,还有一些与层次聚类相关的额外问题需要考虑。因此,当不存在簇质心或者说簇平均点时,可以考虑采用簇中心点(clustroid)来表示一个簇。1.1 欧式空间下的层次聚类首先,每个点看作一个簇,通过不断的合并小簇而形成大簇。我们需要提前确定(1) 簇如何表示?
2014-10-31 10:06:17 1927 1
原创 聚类算法(一)层次聚类
聚类 聚类是对点集进行考察并按照某种距离测度将他们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间的距离较短,而不同簇中点之间的距离较大。一、聚类算法介绍层次法和点分配法。1.1 点、空间和距离点集是一种适合于聚类的数据集,每个点都是某空间下的对象。一般意义上,空间只是点的全集,也就是说数据集中的点从该集合中抽样而成。特别地,欧式空间下的点就是实数
2014-10-25 14:31:54 8005 2
原创 关联规则挖掘之Apriori优化
一、仔细看代码会发现如果要加入一个L4是很简单的。 计算L4的代码如下: /*construct C4...................................................*/ vector c4; vector l4; vector::iterator ite41=l3.begin();//iter 41,42 for(;ite41!=l3.en
2014-10-20 21:48:33 2041
原创 相似项发现(三)--LSH
四、文档的局部敏感哈希算法(LSH)即使可以使用最小哈希将大文档压缩成小的签名并同时保持任意对文档之间的预期相似度,但是高效寻找具有最大相似度的文档对仍然是不可能的。主要原因在于,即使文档本身的数目并不是很大,但是需要比较的文档对的数目可能很大。例如:假定有100万篇文档,每篇文档使用的签名的长度为250,则每篇文档需要250*4 bytes来表示签名。所有100万篇文档的签名数据占用1G
2014-10-20 21:07:16 1287
原创 相似项发现(二)--最小哈希矩阵的C++实现
按照相似项(#include using namespace std;int matrix[5][4] = { {1,0,0,1}, {0,0,1,0}, {0,1,0,1}, {1,0,1,1}, {0,0,1,0}};int SIG[2][4];void initSIG(){ for(int i=0;i<2;i++) for(int j=0;j<4;j++)
2014-10-20 20:24:33 1579
原创 逻辑回归--Octave实现
Suppose that you are the administrator of a university department and you want to determine each applicant's chance of admission based on their1Octave is a free alternative to MATLAB. For the prog
2014-10-18 22:20:54 6053 10
原创 关联规则挖掘
一、初步理解 关联规则是数据挖掘技术的一个活跃的研究方向之一,其反映出项目集之间有意义的关联关系。关联规则可以广泛地应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。有效地发现、理解和运用关联规则是数据挖掘任务的一个重要手段。在处理大量数据时,很重要的一点是要理解不同实体间相互关联的规律。通常,发现这些规律是个极为复杂的过程。关联规则是一种十分简单却功能强大的、
2014-10-17 22:44:21 8571
原创 关联规则挖掘之算法实现
/* 这个程序是数据挖掘中的Apriori算法 Apriori算法的描述 Apriori算法的第一步是简单统计所有含一个元素的项集出现的频率,来决定最大的一维项目集. 在第k步,分两个阶段,首先用一函数sc_candidate(候选),通过第(k-1)步中生成的最大项目集Lk-1来生成侯选项目集Ck. 然后搜索数据库计算侯选项目集Ck的支持度. 为了更快速地计算Ck中项目的支
2014-10-17 18:19:57 791
原创 线性回归--Octave实现
In this part, you will implement linear regression with multiple variables topredict the prices of houses. Suppose you are selling your house and youwant to know what a good market price would be.
2014-10-13 18:07:34 6262 4
转载 Octave安装指导
Octave // Matlab TutorialHelpIn order to complete this course, you'll need access to the programming language of Matlab or Octave. Matlab is a proprietary software for which a free, limited licens
2014-10-10 22:19:38 6415
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人