普通网友-CSDN博客

转载大数据分析技术：给Python初学者的一些技巧

以下是我近些年收集的一些Python实用技巧和工具，希望能对你有所帮助。交换变量 x = 6 y = 5 x, y = y, x print x >>> 5 print y >>> 6 if 语句在行内 print "Hello" if True else "World" >>> Hello 连接下面的最后

2018-08-13 15:15:28 205

转载大数据编程语言学习：鲜为人知的 Python 语法

都知道 Python 是一门用途广泛、易读、而且容易入门的编程语言。但同时 Python 语法也允许我们做一些很奇怪的事情。使用 lambda 表达式重写多行函数众所周知 python 的 lambda 表达式不支持多行代码。但是可以模拟出多行代码的效果。 def f(): x = 'string' if x.endswith('g'): x ...

2018-08-09 14:18:34 207

转载大数据分析学习：Python面试之理解new和init的区别

很多同学都以为Python中的__init__是构造方法，但其实不然，Python中真正的构造方法是__new__。__init__和__new__有什么区别？本文就来探讨一下。我们先来看一下__init__的用法class Person(object): def __init__(self, name, age): print("in __init__") ...

2018-07-12 11:09:50 267

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。方法：1、运行机制和原理2、动手：安装配置3、写程序Hive: 基于HDFS之上的数据...

2018-06-26 14:17:53 207

原创提高数据存储效率的七个技巧

IT专业人员经常致力于提高存储性能，以确保应用程序获得他们运行所需的资源。有的企业采用的是硬盘技术，这意味着其使用成本昂贵，并且效率低下，例如在几十个(或是数百个)硬盘上分割数据，然后格式化这些驱动器，只有一半的硬盘容量可用于应用程序。　　如今，更为经济的闪存存储器在可预见的未来有望打破存储设备在应用性能上的瓶颈。为了充分利用闪存，人们需要以正确的方式和正确的技术来实现它。这样，就可以从整体的固...

2018-06-14 14:20:04 1405

原创运行在YARN上的框架简介

离线计算框架MapReduce原理：将计算过程分为两个阶段，Map和Reduce。Map 阶段并行处理输入数据，Reduce阶段对Map结果进行汇总。Shuffle连接Map和Reduce两个阶段。MapTask将数据写到本地磁盘，Reduce Task从每个MapTask上读取一份数据。优点：仅适合离线批处理；具有很好的容错性和扩展性；适合简单的批处理任务缺点：启动开销大、过多使用磁盘导致效率低...

2018-04-13 10:22:39 334

原创 YARN三大模块介绍

YARN是一个资源管理、任务调度的框架，主要包含三大模块：ResourceManager（RM）、NodeManager（NM）、ApplicationMaster（AM）。其中，ResourceManager负责所有资源的监控、分配和管理；ApplicationMaster负责每一个具体应用程序的调度和协调；NodeManager负责每一个节点的维护。对于所有的applications，RM拥有...

2018-04-10 15:20:49 773

原创 MapReduce作业调度

可以通过设置mapred.job.priority属性或JobClient的setJobPriority()方法来设置优先级（在这两种方法中，可以选VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW中的任何值作为优先级）。在作业调度器选择要运行的下一个作业时，选择的是优先级最高的作业。然而，在FIFO调度算法中，优先级并不支持抢占，所以高优先级的作业任然受阻于此前已经开始的，长时...

2018-03-15 11:17:50 580

加米谷的博客