飞的man-CSDN博客

转载详解Hadoop Shuffle过程

一、作业运行流程 1.在客户端启动一个作业。 2.向JobTracker请求一个Job ID。 3.将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。JAR文件默认会有10个副本（mapred.submit.replica

2017-09-17 23:08:10 1226

转载 Hadoop常见问题①

1、Hadoop的shuffle过程即为从MAP端输出到REDUCE端输入之间的过程。因为涉及到Hadoop中最珍贵的网络资源，所以shuffle过程中有很多可以调节的参数，也有很多策略可以研究。 MAP端此过程的输出是写入到本地磁盘而不是HDFS，但是一开始数据并不是直接写入磁盘而是缓冲在内存里。缓存的好处就是减少磁盘I/O的开销，提高合并和排序的速度。默认的内存缓冲大小为100M，所以在写

2017-09-17 20:50:14 541

原创 Spark架构

①Spark的架构②Spark的工作机制③Spark的调度=>Spark的架构Spark架构组件简介①Spark集群中Master负责集群整体资源管理和调度，Worker负责单个节点的资源管理。Driver程序是应用逻辑执行的起点，而多个Executor用来对数据进行并行处理。②Spark的构成：ClusterManager:在standalone模式中，即

2017-08-01 19:51:45 601

原创 Spark简介与计算模型

Spark简介与计算模型①Spark简介②计算模型③开发环境的搭建=>Spark简介简介与功能①是基于内存计算的大数据分布式计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证高容错性和高可伸缩性，允许用户将Spark部署在大量廉价的硬件上，形成集群；②分布式计算。将分布式的存储数据并行读入，并将任务分发到各个节点，进行并行运算；

2017-08-01 18:27:56 1022

原创 CART树回归

树回归

2017-07-13 11:20:58 1037

翻译 Reinforcement learning (RL) ①

背景强化学习(RL)是一个受行为心理学启发的机器学习领域，它涉及到软件代理应该如何在一个环境中采取行动，从而最大化累积奖励。由于其通用性，在许多其他学科如博弈论、控制理论、操作研究、信息理论、模拟优化、多代理系统、群体智能、统计和遗传算法中，都有相关研究。在operations research和 control literature中，研究强化学习的方法也叫作 approximate

2017-06-26 20:34:24 680

原创 LR逻辑回归

1、为什么想到逻辑回归这种思想？逻辑回归的前身为线性回归，线性回归可能输出很大范围的数，如从负无穷到正无穷。线性回归的拟合不好，比如无法抗噪声、无法消除冒尖变量的影响。所以在线性回归的基础上进行提升，将线性回归输出的数压缩到0-1之间，这样输出的值可被解释为“可能性”。实现这种功能只要在输出加一个logistic函数。（LR属于广义线性回归模型） ∑i=0ni2=(n2+n)(2n+1)6\s

2017-06-23 10:52:53 481

原创 pythonic 1

pythonic

2017-06-22 18:29:08 262

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-06-22 18:22:53 185