Hadoop
文章平均质量分 81
Tardis1
奋斗
展开
-
Hadoop学习之路-----不同进程通信的代理对象
代理模式的作用是:为其他对象提供一种代理以控制对这个对象的访问。在某些情况下,一个客户不想或者不能直接引用另一个对象,而代理对象可以在客户端和目标对象之间起到中介的作用。 代理模式一般涉及到的角色有: 抽象角色:声明真实对象和代理对象的共同接口; 代理角色:代理对象角色内部含有对真实对象的引用,从而可以操作真实对象,同时代理对象提供与真实对象相同的接口以便在任何时刻转载 2017-07-30 10:42:57 · 279 阅读 · 0 评论 -
Hadoop学习(1)——MapReduce的原理和操作
MapReduce的流程图 名词解释:Map的过程 :每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort.mb属性控制),当该缓冲区快要溢出时(默认为缓冲区大小的80%,由io.sort.spill.percent属性控制)转载 2017-08-20 19:48:10 · 351 阅读 · 0 评论 -
System memory 249364480 must be at least 471859200
我是在eclipse run遇到这个问题的,所以解决办法是来到这里加上:表示运行的时候虚拟空间最小为128,最大为512原创 2017-08-27 23:31:58 · 1895 阅读 · 0 评论 -
Spark----管道的概念与例子
一、管道的概念 学习来源:Spark官网对管道的描述 1、管道的几个基本概念: (1)DataFrame:其实就是DataSet的集合,可以理解为,dataset为某张表里面的一行,那么行的集合就是一张表,所以dataFrame就是一张表,但是表的field比较丰富,可以有向量,在很多算法里面,向量的使用是必不可少的; (2)Transformer:作用就是将DataFrame A 变成 D原创 2017-12-11 23:12:41 · 1683 阅读 · 0 评论 -
决策树、随机森林的思路和spark实现
一、决策树 1、概念 2、构造决策树的思路流程 算法名:Generate_decisione_tree D:表示所有数据的集合 attribute_list,代表所有数据中属性的集合 Attribute_selection_method: 表示通过某个方法,得到进行分类的最适合的属性 3、如何实现Attribute_selection_method (1)使用信息增益的ID3原创 2017-12-26 15:24:51 · 711 阅读 · 0 评论 -
java hdfs 上传下载工具类
package com.apache.spark.test.hdfs;import java.io.InputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.ha原创 2018-01-29 23:48:09 · 340 阅读 · 0 评论