数据挖掘
文章平均质量分 53
快乐的霖霖
一个人默默的奋斗者
展开
-
数据挖掘学习篇——数据挖掘的概念
数据挖掘学习篇——数据挖掘的概念 数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库,数据仓库,Web,其他信息存储库或动态地流入系统的数据。 数据库系统,也称为数据库管理系统(DBMS),由一组内部相关的数据(称做数据库)和一组管理和存储数据的软件程序组成。软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发,共享或分布式数据访问等。 数据仓原创 2012-10-25 09:23:00 · 1174 阅读 · 0 评论 -
关联规则与提高算法效率
关联规则与提高算法效率 提高效率关键点一先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。原理的解释:考虑图6-3所示的项集格。假定{C,D,E}是频繁项集。任何一个包含项集{C,D,E}的事务一定包含它的子集{C,D},{C,E},{D,E},{C},{D},{E}。这样,如果{C,D,E}是频繁的,则它的所有子集一定也是频繁的,如图6-3右原创 2013-03-10 12:14:22 · 2885 阅读 · 0 评论 -
支持度和置信度
支持度和置信度 支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。 置信度(Confidence)的公式式:Confidence(A->B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有原创 2013-03-10 10:47:37 · 7935 阅读 · 1 评论 -
数据挖掘十大经典算法之apriori算法&源代码
数据挖掘十大经典算法之apriori算法&源代码 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 由Agrawal等人提出的Apriori是经典的关联规则和频繁项集挖掘算法,围绕着它的改进和实现原创 2013-02-26 11:25:18 · 2059 阅读 · 0 评论 -
TrustRank算法详细介绍
TrustRank算法详细介绍 TrustRank 算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。TrustRank 算法发明人还发表了一份专门的PDF文件,说明 TrustRank 算法的应用。 TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站。反之则不成立,也就是说原创 2013-02-25 21:02:37 · 3206 阅读 · 0 评论 -
大数据:推荐系统
大数据:推荐系统下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第九章的总结。1 效用矩阵:推荐系统处理对象是用户和项。该矩阵提供某个用户对某个项的喜好程度。通常而言,大部分元素未知,推荐系统是基于已知项对未知元素进行预测。2 两类推荐系统:发现相似项以及用户对相似项的反应预测某个用户对某个项的反应。一类是基于内容,寻找项的特征计算相似度。一类是协同过原创 2013-02-23 16:28:13 · 1927 阅读 · 0 评论 -
大数据:Web广告
大数据:Web广告下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第八章的总结。1 定向广告:Web广告按照某个用户的兴趣来选择,使得Web服务通过广告收益来支持运行。2 在线及离线算法:得到所有数据才产生答案的传统算法称之为离线算法。在线算法必须对流中的每一个元素都立即作答,此时仅对过去的信息有所了解,对未来的数据一无所知。3 贪心算法:在线原创 2013-02-23 16:26:18 · 1371 阅读 · 0 评论 -
大数据:聚类
大数据:聚类下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第七章的总结。1 聚类:促某空间下点形式的有用的概要表示。为了对点进行聚类,需要在该空间下定义一个距离测度。2 聚类算法:层次聚类算法 将每个点自己都看成一个簇,然后相近的簇进行合并。点分配聚类算法依次考虑每个点并将他们分配到最符合的簇。3 维数灾难:高维欧式空间和非欧空间。随机点之间往往原创 2013-02-23 16:23:59 · 2567 阅读 · 0 评论 -
大数据:数据流挖掘
大数据:数据流挖掘 下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第四章的总结。1 流数据模型:数据以某种速率达到处理引擎,该速率使得无法在当前内存存储数据。流处理一种策略是保留流的概要信息,使之足够回答数据的期望的查询。另一种是维持最近到达数据的滑动窗口。2 流抽样:为创建某类查询创建的流样本。确定流中关键属性集合。对任一到达流的键值进行哈希处理,使用原创 2013-02-23 16:18:54 · 1450 阅读 · 0 评论 -
大数据:大规模文件系统及map-reduce
大数据:大规模文件系统及map-reduce 下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。1 分布式文件系统:distributed file system文件多副本存储,计算任务分多个,容错。文件非常大(TB),文件极少更新2 Map-reduce:a 多个map任务,每个任务输入是DFS的一个或者多个文件块原创 2013-02-23 16:14:35 · 1434 阅读 · 0 评论 -
大数据:频繁项集
大数据:频繁项集 下面是我下面是阅读《大数据—互联网大规模数据挖掘与分布式处理》一书第六章笔记,详细请见该书所述。1 购物篮数据:项与购物篮,多对多的关系。项存放于购物篮。2 频繁项集:项集的支持度包含该项的所有购物篮数目3 关联规则:若购物篮包含某项I,它很可能包含另一项J,J同属于包含I的购物篮的概率称为规则的可信度。规则兴趣度指可信度及包含j的所有购物原创 2013-02-23 16:12:13 · 2926 阅读 · 0 评论 -
大数据:链接分析
大数据:链接分析下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第五章的总结。1 词项作弊:在web网页中估计引入那些与网页页面无关的用于误导搜索引擎的词项。2 对付词项作弊:Pagerank 。相信其他网页对当前网页的评价。3 Pagerank:是递归方程“重要网页指向的网页也重要”的解。4 Web的转移矩阵:一个或者多个链接从j指向原创 2013-02-23 16:21:59 · 1252 阅读 · 0 评论 -
大数据:相似项发现
大数据:相似项发现下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第三章的总结。1 Jaccard相似度 :交集大小/并集大小,可应用于文档相似度,购物习惯相似度计算2 Shingling:K-shingling文档中连续出现的任意K个字符。3 最小哈希:集合上的最小哈希函数是基于全局的排列转换来定义。给定任意一个排列转换,集合的最小哈希值为排原创 2013-02-23 09:42:42 · 1942 阅读 · 0 评论 -
PCA方法简介
PCA方法简介1. 什么是PCA? PCA是一种分析高维数据的方法,能够产生一组新基,当数据在新基上投影 时能够有效的识别数据之间的相似性和主要的差异。另外,PCA的一个主要 优点是数据的信息主要保存在前几个主成分中,那么,可以把高维数据进行 降维处理而不会丢掉很多信息。 2. PCA的思路 从数学的角度,主成分分析即构造原变量的一系列线性组合,使各线性组合在原创 2013-03-04 20:25:44 · 2295 阅读 · 0 评论 -
什么是大数据,大数据为什么重要?
什么是大数据,大数据为什么重要? 大数据通常定义为,超出了常用硬件环境和软件工具在可接受的时间内为其用户收集,管理和处理能量流的数据. 大数据的"大"不仅体现在容量上,还体现在多样性,速度及复杂度等方面. 大数据的威力体现在你所做的分析和所采取的行动上,而不是体现在"大"或"数据"这两个方面. 大数据通常由某类机器自动原创 2013-02-20 23:56:27 · 1715 阅读 · 0 评论 -
数据流挖掘简述
数据流挖掘简述数据流:所谓数据流就是大量连续到达的、潜在无限的数据的有序序列。在网络监控、入侵检测、情报分析、金融服务、股票交易、电子商务、电信、卫星遥感(气象、环境资源监控等)、Web页面访问和科学研究等众多领域中,数据都以流的形式出现。数据流被定义为实时的、连续的、有序的(到达时间)记录的序列。近似和可适应性是数据流上的查询的两个非常重要的特点。原创 2013-01-15 20:38:14 · 1514 阅读 · 0 评论 -
基于单步的Map-Reduce的矩阵乘法
基于单步的Map-Reduce的矩阵乘法 矩阵的乘法只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有定义。一般单指矩阵乘积时,指的便是一般矩阵乘积。若A为i×r矩阵,B为r×j矩阵,则他们的乘积AB(有时记做A · B)会是一个i×j矩阵。其乘积矩阵的元素如下面式子得出: 书中提到的对矩阵乘法的MapReduce实现方法是:原创 2013-01-12 21:26:22 · 1095 阅读 · 0 评论 -
文本相似度算法
文本相似度算法1.信息检索中的重要发明TF-IDF1.1 TF Term frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-1)为该关键词在这篇文章中的词频。1.2 IDF Inverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式原创 2013-01-13 15:13:57 · 3184 阅读 · 0 评论 -
K-Means算法
K-Means算法 K-means算法是将样本聚类成k个簇(cluster),具体算法描述如下:1、 随机选取k个聚类质心点(cluster centroids)为。2、 重复下面过程直到收敛 { 对于每一个样例i,计算其应该属于的类 对于每一个类j原创 2013-02-26 21:42:38 · 994 阅读 · 0 评论