大数据畅聊
文章平均质量分 95
wonderful_life_mrchi
不登高山,不知天之高也;不临深溪,不知地之厚也
展开
-
数据挖掘和数据分析之数据中位数和众数
中位数中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。中位数用Me表示。 从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。中位数的作用与算术平均数相近,也是作为所研究数据的代表值。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不...转载 2020-04-14 21:17:15 · 6982 阅读 · 0 评论 -
mapreduce去掉重复行
思想mapreduce可以分为map和reduce两个过程,我们知道最终结果是reduce输出的k,v中的k一定不是重复的,是排序合并之后的。我们就利用这一点在mapper阶段,不需要做任何事情,只要将输入value(一行内容)作为key输出到reduce即可。由于这里不做wordcount,所以可以写:context.write(value,NullWritable.get())。NullW原创 2017-08-26 20:49:20 · 3418 阅读 · 0 评论 -
Dubbo入门之HelloWorld
Dubbo现在支持的有三种方式: 1.multicast; 2.zookeeper; 3.Redis 下面的Demo使用的是multicast方式。提供者项目结构: 消费者项目结构: 服务端:pom.xml配置<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org转载 2017-08-07 16:00:09 · 3646 阅读 · 0 评论 -
协同过滤算法在JavaEE项目中应用
基于用户的协同过滤算法UserCF基于用户的协同过滤,通过不同用户对物品的评分来评测用户之间的相似性,基于用户之间的相似性做出推荐。简单来讲就是:给用户推荐和他兴趣相似的其他用户喜欢的物品。举例说明:基于用户的 CF 的基本思想相当简单,基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户。计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相原创 2017-08-14 11:47:35 · 8914 阅读 · 0 评论 -
Google大数据三宝之MapReduce
江湖传说永流传:谷歌技术有”三宝”,GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机学会推荐会议里属于A类。SOSP在单数年举办,而OSDI在双数年举办。那么这篇博客就来介绍一下Map转载 2017-08-13 15:15:19 · 6571 阅读 · 0 评论 -
Google大数据三宝之GFS
题记:初学分布式文件系统,写篇博客加深点印象。GFS的特点是使用一堆廉价的商用计算机支撑大规模数据处理。虽然”The Google File System “ 是03年发表的老文章了,但现在仍被广泛讨论,其对后来的分布式文件系统设计具有指导意义。然而,作者在设计GFS时,是基于过去很多实验观察的,并提出了很多假设作为前提,这等于给出了一个GFS的应用场景。所以我们自己在设计分布式系统时,一定要注意转载 2017-08-13 15:13:50 · 12079 阅读 · 0 评论 -
Google大数据论文三宝之BigTable
2006年的OSDI有两篇google的论文,分别是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了BigTable,比如Google Earth和Google Analytics,因此它和GFS、MapRedu转载 2017-08-13 15:10:27 · 16854 阅读 · 0 评论 -
hdfs的高可用性HA
早期的hadoop版本,NN是HDFS集群的单点故障点,每一个集群只有一个NN,如果这个机器或进程不可用,整个集群就无法使用。为了解决这个问题,出现了一堆针对HDFS HA的解决方案(如:Linux HA, VMware FT, shared NAS+NFS, BookKeeper, QJM/Quorum Journal Manager, BackupNode等); 在HA具体实现方法不同的情况下转载 2017-08-11 11:19:54 · 13783 阅读 · 0 评论 -
Dubbo之Zookeeper作用解析
下面我们来看下开源dubbo推荐的业界成熟的zookeeper做为注册中心, zookeeper是Hadoop的一个子项目是分布式系统的可靠协调者,他提供了配置维护,名字服务,分布式同步等服务。对于zookeeper的原理本文档不分析,后面有时间在做专题。zookeeper注册中心Zookeeper对数据存储类似Linux的目录结构,下面给出官方文档对dubbo注册数据的存储示例 假设读者对z转载 2017-08-07 16:08:57 · 4620 阅读 · 1 评论 -
Dubbo+Zookeeper伪分布式实战
zookeeper作为注册中心,服务器和客户端都要访问,如果有大量的并发,肯定会有等待。所以可以通过zookeeper集群解决。一、为什么需要zookeeper呢? 大部分分布式应用需要一个主控、协调器或者控制器来管理物理分布的子进程。目前,大多数都要开发私有的协调程序,缺乏一个通用机制,协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器,zookeeper提供通用的分布式锁服务,用以转载 2017-08-07 16:05:12 · 8488 阅读 · 0 评论 -
spark快速入门
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简单易用的 API,几行代码就能实现 WordCount。本教程主要参考官网快速入门教程,介绍了 Spark 的安装,Spark shell 、RDD、转载 2017-05-27 12:54:36 · 5384 阅读 · 0 评论 -
大数据分析之聚类算法
数据分析之聚类算法 1. 什么是聚类算法 所谓聚类,就是比如给定一些元素或者对象,分散存储在数据库中,然后根据我们感兴趣的对象属性,对其进行聚集,同类的对象之间相似度高,不同类之间差异较大。最大特点就是事先不确定类别。 这其中最经典的算法就是KMeans算法,这是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇原创 2016-09-07 15:36:16 · 58954 阅读 · 1 评论 -
大数据寻宝之关联挖掘
不夸张的说,这是一个数据泛滥的年代,特别是物联网的兴起、移动计算技术的发展、各类传感器等嵌入系统的广泛应用都使得人类取得的数据量在短时间内激增。这样就积累了大量的历史数据,有的甚至已沉睡多年,他们还有价值吗,是不是应该像清空垃圾那样删掉它们?当然不是,因为当中隐藏这宝贝,我们来看数据寻宝吧。原创 2016-09-02 16:31:38 · 28619 阅读 · 0 评论 -
Oracle删除数据各语法总结
oracle数据库表的删除delete drop truncate 数据库的运维中,经常会遇到delete drop truncate的操作,那么如何去把握它们的用法和区别呢? 一般当系统中大量使用分区表,而针对分区表清除数据,是不会释放表空间的,必须把分区drop掉,才会释放空间。 一、delete 1、delete是DML,执行delete操作时,每次从表中删除一行,并原创 2016-09-14 10:29:24 · 29074 阅读 · 0 评论 -
大数据分析之分类算法
数据分析之决策树ID3算法什么是分类算法? 分类算法跟之前的聚类都是让不同对象个体划分到不同的组中的。但是分类不同之处在于类别在运算之前就已经是确定的。 分类是根据训练数据集合,结合某种分类算法,比如这篇讲的ID3算法来生成最终的分类规则,这样当提供一个对象的时候我们可以根据它们的特征将其划分到某个分组中。 决策树ID3算法是分类中的经典算法,决策树的每一层节点依照某一确定程度比较高的属性向原创 2016-09-09 14:04:37 · 61993 阅读 · 0 评论