自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cm_chenmin的专栏

记录每天的点点滴滴

  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

转载 MapReduce Shuffle原理 与 Spark Shuffle原理

MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射

2016-11-26 20:15:03 1521

转载 Java NIO 系列教程

Java NIO 概述(本部分原文链接,作者:Jakob Jenkov, 译者:airu,校对:丁一) Java NIO 由以下几个核心部分组成: ChannelsBuffersSelectors虽然Java NIO 中除此之外还有很多类和组件,但在我看来,Channel,Buffer 和 Selector 构成了核心的API。其它组件,如Pipe和FileLock

2016-11-26 20:14:10 416

原创 JDK的命令行工具

jps JVM Process Status Tool,显示指定系统内所有HotSpot虚拟机进程选项:-q 只输出LVMID,省略主类的名称-m 输出虚拟机进程启动时传递给主类的main()函数的参数-l 输出主类的全名,如果进程执行的是jar包,输出jar路径-v 输出虚拟机进程启动时JVM参数jstatJVM Statistics Monitoring

2016-11-25 17:48:34 456

转载 使用基于Apache Spark的随机森林方法预测贷款风险

在本文中,我将向大家介绍如何使用Apache Spark的spark.ml库中的随机森林算法来对银行信用贷款的风险做分类预测。Spark的spark.ml库基于DataFrame,它提供了大量的接口,帮助用户创建和调优机器学习工作流。结合dataframe使用spark.ml,能够实现模型的智能优化,从而提升模型效果。分类算法分类算法是一类监督式机器学习算法,它根据已知标签的样本(

2016-11-22 17:42:45 1465

转载 Hadoop中两表JOIN的处理方法

本文转自:http://dongxicheng.org/mapreduce/hadoop-join-two-tables/1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给

2016-11-09 21:53:39 1752

原创 spark机器学习-聚类

聚类算法是一种无监督学习任务,用于将对象分到具有高度相似性的聚类中,聚类算法的思想简单的说就是物以类聚的思想,相同性质的点在空间中表现的较为紧密和接近,主要用于数据探索与异常检测,最常用的一种聚类算法是K均值(K-means)聚类算法算法原理kmeans的计算方法如下:1 选取k个中心点2 遍历所有数据,将每个数据划分到最近的中心点中3 计算每个聚类的平均值,并作为新的中心

2016-11-09 21:28:46 1695

原创 关系型数据库的事务隔离级别

一、事务的4个基本特征 事务ACID特性,ACID就是:原子性(Atomicity )、一致性( Consistency )、隔离性或独立性( Isolation)和持久性(Durabilily)原子性(Atomicity):事务作为一个整体被执行,包含在其中的对数据库的操作要么全部被执行,要么都不执行。一致性(Consistency):事务应确保数据库的状态从一个一致状态转变为另一个

2016-11-09 21:11:46 749

原创 流式大数据处理的三种框架:Storm,Spark和Flink

storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(

2016-11-07 21:48:06 40104 1

转载 HBase的RowKey设计

本文出自:http://dxer.github.io/2016/06/16/hbase_rowkey/?utm_source=tuicool&utm_medium=referralHBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。

2016-11-04 11:43:27 567

转载 HBase最佳实践-内存规划

本文出自:http://hbasefly.com/2016/06/18/hbase-practise-ram/线上HBase集群应该如何进行参数配置?这其实是很多HBase初学者在实践环节都可能会遇到的问题,有些人会选择默认配置,有些人会选择其他公司的推荐配置;诚然,这样的参数配置在大多数情况下都能正常工作,但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验,针对不同应用场景

2016-11-01 13:19:07 10036

VIM学习文档

vim操作文档,来自网页,非常分,感谢作者分享 vim操作文档,来自网页,非常分,感谢作者分享 vim操作文档,来自网页,非常分,感谢作者分享

2011-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除