2016年11月_cm_chenmin

12月 11月 10月 09月

转载 MapReduce Shuffle原理与 Spark Shuffle原理

MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射

2016-11-26 20:15:03 1521

转载 Java NIO 系列教程

Java NIO 概述（本部分原文链接，作者：Jakob Jenkov，译者：airu，校对：丁一） Java NIO 由以下几个核心部分组成： ChannelsBuffersSelectors虽然Java NIO 中除此之外还有很多类和组件，但在我看来，Channel，Buffer 和 Selector 构成了核心的API。其它组件，如Pipe和FileLock

2016-11-26 20:14:10 416

原创 JDK的命令行工具

jps JVM Process Status Tool，显示指定系统内所有HotSpot虚拟机进程选项：-q 只输出LVMID，省略主类的名称-m 输出虚拟机进程启动时传递给主类的main()函数的参数-l 输出主类的全名，如果进程执行的是jar包，输出jar路径-v 输出虚拟机进程启动时JVM参数jstatJVM Statistics Monitoring

2016-11-25 17:48:34 456

转载使用基于Apache Spark的随机森林方法预测贷款风险

在本文中，我将向大家介绍如何使用Apache Spark的spark.ml库中的随机森林算法来对银行信用贷款的风险做分类预测。Spark的spark.ml库基于DataFrame，它提供了大量的接口，帮助用户创建和调优机器学习工作流。结合dataframe使用spark.ml，能够实现模型的智能优化，从而提升模型效果。分类算法分类算法是一类监督式机器学习算法，它根据已知标签的样本（

2016-11-22 17:42:45 1465

转载 Hadoop中两表JOIN的处理方法

本文转自：http://dongxicheng.org/mapreduce/hadoop-join-two-tables/1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给

2016-11-09 21:53:39 1752

原创 spark机器学习-聚类

聚类算法是一种无监督学习任务，用于将对象分到具有高度相似性的聚类中，聚类算法的思想简单的说就是物以类聚的思想，相同性质的点在空间中表现的较为紧密和接近，主要用于数据探索与异常检测，最常用的一种聚类算法是K均值(K-means)聚类算法算法原理kmeans的计算方法如下：1 选取k个中心点2 遍历所有数据，将每个数据划分到最近的中心点中3 计算每个聚类的平均值，并作为新的中心

2016-11-09 21:28:46 1695

原创关系型数据库的事务隔离级别

一、事务的4个基本特征事务ACID特性，ACID就是：原子性(Atomicity )、一致性( Consistency )、隔离性或独立性( Isolation)和持久性(Durabilily)原子性（Atomicity）：事务作为一个整体被执行，包含在其中的对数据库的操作要么全部被执行，要么都不执行。一致性（Consistency）：事务应确保数据库的状态从一个一致状态转变为另一个

2016-11-09 21:11:46 749

原创流式大数据处理的三种框架：Storm，Spark和Flink

storm、spark streaming、flink都是开源的分布式系统，具有低延迟、可扩展和容错性诸多优点，允许你在运行数据流代码时，将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（

2016-11-07 21:48:06 40106 1

转载 HBase的RowKey设计

本文出自：http://dxer.github.io/2016/06/16/hbase_rowkey/?utm_source=tuicool&utm_medium=referralHBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。

2016-11-04 11:43:27 567

转载 HBase最佳实践－内存规划

本文出自：http://hbasefly.com/2016/06/18/hbase-practise-ram/线上HBase集群应该如何进行参数配置？这其实是很多HBase初学者在实践环节都可能会遇到的问题，有些人会选择默认配置，有些人会选择其他公司的推荐配置；诚然，这样的参数配置在大多数情况下都能正常工作，但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验，针对不同应用场景

2016-11-01 13:19:07 10036

VIM学习文档

vim操作文档，来自网页,非常分，感谢作者分享 vim操作文档，来自网页,非常分，感谢作者分享 vim操作文档，来自网页,非常分，感谢作者分享

2011-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人