2018年06月_bug搬运攻城狮

原创浅谈java中List Set Map

java集合的主要分为三种类型：Set（集） List（列表） Map（映射）1、List,Set都是继承自Collection接口，Map则不是Collection接口包括两个接口：.List接口和Set接口（包括SortedSet接口）。Map接口包括SortedMap接口。集合框架接口的分类：Collection接口：集合中每一个元素为一个对象，这个接口将这些对象组...

2018-06-28 11:55:23 209

原创 spark工作流程及原理（一）

Spark架构的组成图如下：Cluster Manager：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。Driver：运行Application 的main()函数 Executor：执行器，是为某个Applicat...

2018-06-27 14:35:53 12384

MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射，负责数据的过滤分发；Re...

2018-06-21 14:46:31 4917

原创决策树实战篇

二决策树构建上篇文章也粗略提到过，构建决策树的算法有很多。篇幅原因，本篇文章只使用ID3算法构建决策树。1 ID3算法 ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征，递归地构建决策树。具体方法是：从根结点(root node)开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子节点；再对子结点递归地调用以上方法，构...

2018-06-19 11:06:55 1094

原创决策树基础篇

1. 什么是决策树/判定树（decision tree)? 判定树是一个类似于流程图的树结构：其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类分布。树的最顶层是根结点。 2. 机器学习中分类方法中的一个重要算法3. 构造决策树的基本算法 ...

2018-06-15 16:59:36 271

原创 K-NN

1.1 k-近邻法简介下面通过一个简单的例子说明一下：如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。由此也说明了KNN算法的结果很大程度取决于K的选择。 k近邻法(k-nearest neighbor, k-NN)是1967年由Co...

2018-06-15 14:52:06 1142

我见青山多妩媚，料青山见我应如是

原创浅谈java中List Set Map

原创 spark工作流程及原理（一）

转载 Shuffle过程介绍

原创决策树实战篇

原创决策树基础篇

原创 K-NN

空空如也

空空如也

原创 浅谈java中List Set Map

原创 spark工作流程及原理（一）

转载 Shuffle过程介绍

原创 决策树实战篇

原创 决策树基础篇

原创 K-NN

空空如也

空空如也

原创浅谈java中List Set Map

原创决策树实战篇

原创决策树基础篇