- 博客(9)
- 资源 (1)
- 收藏
- 关注
转载 详解Hadoop Shuffle过程
一、作业运行流程 1.在客户端启动一个作业。 2.向JobTracker请求一个Job ID。 3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。JAR文件默认会有10个副本(mapred.submit.replica
2017-09-17 23:08:10 1109
转载 Hadoop常见问题①
1、Hadoop的shuffle过程即为从MAP端输出到REDUCE端输入之间的过程。因为涉及到Hadoop中最珍贵的网络资源,所以shuffle过程中有很多可以调节的参数,也有很多策略可以研究。 MAP端 此过程的输出是写入到本地磁盘而不是HDFS,但是一开始数据并不是直接写入磁盘而是缓冲在内存里。缓存的好处就是减少磁盘I/O的开销,提高合并和排序的速度。默认的内存缓冲大小为100M,所以在写
2017-09-17 20:50:14 485
原创 Spark架构
①Spark的架构②Spark的工作机制③Spark的调度=>Spark的架构Spark架构组件简介①Spark集群中Master负责集群整体资源管理和调度,Worker负责单个节点的资源管理。Driver程序是应用逻辑执行的起点,而多个Executor用来对数据进行并行处理。②Spark的构成:ClusterManager:在standalone模式中,即
2017-08-01 19:51:45 534
原创 Spark简介与计算模型
Spark简介与计算模型①Spark简介②计算模型③开发环境的搭建=>Spark简介简介与功能①是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证高容错性和高可伸缩性,允许用户将Spark部署在大量廉价的硬件上,形成集群;②分布式计算。将分布式的存储数据并行读入,并将任务分发到各个节点,进行并行运算;
2017-08-01 18:27:56 962
翻译 Reinforcement learning (RL) ①
背景 强化学习(RL)是一个受行为心理学启发的机器学习领域,它涉及到软件代理应该如何在一个环境中采取行动,从而最大化累积奖励。由于其通用性,在许多其他学科如博弈论、控制理论、操作研究、信息理论、模拟优化、多代理系统、群体智能、统计和遗传算法中,都有相关研究。在operations research和 control literature中,研究强化学习的方法也叫作 approximate
2017-06-26 20:34:24 560
原创 LR逻辑回归
1、为什么想到逻辑回归这种思想? 逻辑回归的前身为线性回归,线性回归可能输出很大范围的数,如从负无穷到正无穷。线性回归的拟合不好,比如无法抗噪声、无法消除冒尖变量的影响。所以在线性回归的基础上进行提升,将线性回归输出的数压缩到0-1之间,这样输出的值可被解释为“可能性”。实现这种功能只要在输出加一个logistic函数。(LR属于广义线性回归模型) ∑i=0ni2=(n2+n)(2n+1)6\s
2017-06-23 10:52:53 430
原创 欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-06-22 18:22:53 150
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人