- 博客(10)
- 资源 (1)
- 收藏
- 关注
转载 MapReduce Shuffle原理 与 Spark Shuffle原理
MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射
2016-11-26 20:15:03 1521
转载 Java NIO 系列教程
Java NIO 概述(本部分原文链接,作者:Jakob Jenkov, 译者:airu,校对:丁一) Java NIO 由以下几个核心部分组成: ChannelsBuffersSelectors虽然Java NIO 中除此之外还有很多类和组件,但在我看来,Channel,Buffer 和 Selector 构成了核心的API。其它组件,如Pipe和FileLock
2016-11-26 20:14:10 416
原创 JDK的命令行工具
jps JVM Process Status Tool,显示指定系统内所有HotSpot虚拟机进程选项:-q 只输出LVMID,省略主类的名称-m 输出虚拟机进程启动时传递给主类的main()函数的参数-l 输出主类的全名,如果进程执行的是jar包,输出jar路径-v 输出虚拟机进程启动时JVM参数jstatJVM Statistics Monitoring
2016-11-25 17:48:34 456
转载 使用基于Apache Spark的随机森林方法预测贷款风险
在本文中,我将向大家介绍如何使用Apache Spark的spark.ml库中的随机森林算法来对银行信用贷款的风险做分类预测。Spark的spark.ml库基于DataFrame,它提供了大量的接口,帮助用户创建和调优机器学习工作流。结合dataframe使用spark.ml,能够实现模型的智能优化,从而提升模型效果。分类算法分类算法是一类监督式机器学习算法,它根据已知标签的样本(
2016-11-22 17:42:45 1465
转载 Hadoop中两表JOIN的处理方法
本文转自:http://dongxicheng.org/mapreduce/hadoop-join-two-tables/1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给
2016-11-09 21:53:39 1752
原创 spark机器学习-聚类
聚类算法是一种无监督学习任务,用于将对象分到具有高度相似性的聚类中,聚类算法的思想简单的说就是物以类聚的思想,相同性质的点在空间中表现的较为紧密和接近,主要用于数据探索与异常检测,最常用的一种聚类算法是K均值(K-means)聚类算法算法原理kmeans的计算方法如下:1 选取k个中心点2 遍历所有数据,将每个数据划分到最近的中心点中3 计算每个聚类的平均值,并作为新的中心
2016-11-09 21:28:46 1695
原创 关系型数据库的事务隔离级别
一、事务的4个基本特征 事务ACID特性,ACID就是:原子性(Atomicity )、一致性( Consistency )、隔离性或独立性( Isolation)和持久性(Durabilily)原子性(Atomicity):事务作为一个整体被执行,包含在其中的对数据库的操作要么全部被执行,要么都不执行。一致性(Consistency):事务应确保数据库的状态从一个一致状态转变为另一个
2016-11-09 21:11:46 749
原创 流式大数据处理的三种框架:Storm,Spark和Flink
storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(
2016-11-07 21:48:06 40106 1
转载 HBase的RowKey设计
本文出自:http://dxer.github.io/2016/06/16/hbase_rowkey/?utm_source=tuicool&utm_medium=referralHBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。
2016-11-04 11:43:27 567
转载 HBase最佳实践-内存规划
本文出自:http://hbasefly.com/2016/06/18/hbase-practise-ram/线上HBase集群应该如何进行参数配置?这其实是很多HBase初学者在实践环节都可能会遇到的问题,有些人会选择默认配置,有些人会选择其他公司的推荐配置;诚然,这样的参数配置在大多数情况下都能正常工作,但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验,针对不同应用场景
2016-11-01 13:19:07 10036
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人