2017年09月_象在舞

转载分类和聚类的区别以及各自的常见算法

1、分类和聚类的区别： Classification (分类)，对于一个classifier，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做supervised learning (监督学习)， Cluster

2017-09-24 19:18:40 2360

原创数据库存储过程

【存储过程的概念】存储过程（Stored Procedure）是一组为了完成特定功能的SQL语句集。经编译后存储在数据库中。存储过程是数据库中的一个重要对象，用户通过指定存储过程的名字并给出参数（如果该存储过程带有参数）来执行它。存储过程是由流控制和 SQL语句书写的过程，这个过程经编译和优化后存储在数据库服务器中。存储过程可由应用程序通过一个调用来执行，而且允许用户声明变量。同

2017-09-20 17:20:58 2982

原创数据仓库与数据库的区别

数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。（1）面向主题：指数据仓库中的数据是按照一定的主题域进行组织。（2）集成：指对原有分散的数据库数据经过系统加工, 整理得到的消除源数据中的不

2017-09-15 19:59:19 832

原创 Impala简介

Impala是SQL ON Hadoop框架，和它类似的有Presto、Drill等，但它和Hive区别较大，请参考下面的介绍。Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满

2017-09-11 08:27:32 528

原创 Spark性能调优——其他调优方法

一、提高并行度实际上Spark集群的资源并不一定会被充分利用到，所以要尽量设置合理的并行度，来充分地利用集群的资源。才能充分提高Spark应用程序的性能。Spark会自动设置以文件作为输入源的RDD的并行度，依据其大小，比如HDFS，就会给每一个block创建一个partition，也依据这个设置并行度。对于reduceByKey等会发生shuffle的操作，就使用并行度最大的父R

2017-09-10 21:08:05 300

原创 Spark性能优化——Java虚拟机垃圾回收调优

一、Java虚拟机垃圾回收调优的背景如果在持久化RDD的时候，持久化了大量的数据，那么Java虚拟机的垃圾回收就可能成为一个性能瓶颈。因为Java虚拟机会定期进行垃圾回收，此时就会追踪所有的java对象，并且在垃圾回收时，找到那些已经不在使用的对象，然后清理旧的对象，来给新的对象腾出内存空间。垃圾回收的性能开销，是跟内存中的对象的数量，成正比的。所以，对于垃圾回收的性能问题，首

2017-09-06 12:46:57 1768

原创 Spark性能优化——RDD持久化

如果程序中，对某一个RDD，基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作，以避免对一个RDD反复进行计算。此外，如果要保证在RDD的持久化数据可能丢失的情况下，还要保证高性能，那么可以对RDD进行Checkpoint操作。除了对多次使用的RDD进行持久化操作之外，还可以进一步优化其性能。因为很有可能，RDD的数据是持久化到内存，或者磁盘中

2017-09-06 12:35:16 574

原创 Spark性能优化——优化数据结构

要减少内存的消耗，除了使用高效的序列化类库以外，还有一个很重要的事情，就是优化数据结构。从而避免Java语法特性中所导致的额外内存的开销，比如基于指针的Java数据结构，以及包装类型。有一个关键的问题，就是优化什么数据结构？其实主要就是优化你的算子函数，内部使用到的局部数据，或者是算子函数外部的数据。都可以进行数据结构的优化。优化之后，都会减少其对内存的消耗和占用。如何优化

2017-09-06 12:25:27 472

原创 Spark性能优化——高性能序列化类库

一、数据序列化概述在任何分布式系统中，序列化都是扮演着一个重要的角色的。如果使用的序列化技术，在执行序列化操作的时候很慢，或者是序列化后的数据还是很大，那么会让分布式应用程序的性能下降很多。所以，进行Spark性能优化的第一步，就是进行序列化的性能优化。Spark自身默认就会在一些地方对数据进行序列化，比如Shuffle。还有就是，如果我们的算子函数使用到了外部的数据（比如Java

2017-09-06 10:07:19 515

原创 Spark性能优化——内存的消耗

一、内存消耗在什么地方1、每个Java对象，都有一个对象头，会占用16个字节，主要是包括了一些对象的元信息，比如指向它的类的指针。如果一个对象本身很小，比如就包括了一个int类型的field，那么它的对象头实际上比对象自己还要大。2、Java的String对象，会比它内部的原始数据，要多出40个字节。因为它内部使用char数组来保存内部的字符序列的，并且还得保存诸如数组长度之类

2017-09-06 09:57:29 2287

原创 Spark性能优化——性能优化的重要性

由于Spark的计算本质是基于内存的，所以Spark性能程序的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容纳得下所有的数据，那么网络传输和通信就会导致性能出现瓶颈。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对内存的使用进行性能优化的，比如说使用一些手段来减少内存的消耗。Spark性能优化，其实主要就是

2017-09-06 09:32:27 657

原创 Python中的decode解码和encode编码

decode是解码：读取文本或网页时的过程是decode解码，需要依据文本或网页的编码格式来指定解码格式。它是将不是unicode的格式解码（转换）成unicode格式读取到内存中，使用时必须知道对象源格式。如str1.decode('gb2312')，表示将gb2312编码的字符串转换成unicode编码。语法：对象.decode(非unicode格式)=unicode格式

2017-09-05 21:28:25 1056

原创 Python的基础语法及使用（二）

本文是对我的另外一篇文章Python的基础语法及使用的完善一、字符串中插入变量方法一： name = 'xzw'sayhello = 'hello,' + nameprint(sayhello)方法二：字符的格式化功能 %s代表字符串，%d代表整数，都代表在字符中的占位符变量的位置与字符串中的占位是一一对应关系name =

2017-09-05 21:06:12 250

原创 Python之爬虫工具包

requests包：是一个实用的python的http客户端库，编写爬虫从web上爬取数据时经常用到，简单实用，接口简单，requests.get(URL)。lxml包：主要用来解析通过requests抓取的html内容，从中提取出我们需要的数据，在对html文本内容进行提取、筛选时用到的是xpath语法，lxml使用的是xpath语法对html内容进行的定位筛选提取。l

2017-09-05 20:49:37 5720

原创 Python的基础语法及使用

随着时代的日新月异，Python也越来越受人们的重视，鉴于此，我整理了一些关于Python的基础语法及如何使用这些语法的内容，供大家参阅，文中内容如有不妥之处，欢迎大家提出，本文以例子为主，叙述居少。一、Python的简介Python可应用于众多领域，如：数据分析、组件集成、网络服务、图像处理、数值计算和科学计算等。目前业内几乎所有大中型互联网企业都在使用Python，如：Yout

2017-09-04 20:06:13 1167

原创 Scala之模式匹配

模式匹配是Scala中非常有特色，非常强大的一种功能。模式匹配，其实类似于Java中的swich case语法，即对一个值进行条件判断，然后针对不同的条件，进行不同的处理。但是Scala的模式匹配的功能比Java的swich case语法的功能要强大地多，Java的swich case语法只能对值进行匹配。但是Scala的模式匹配除了可以对值进行匹配之外，还可以对类型进行匹配、对Array和L

2017-09-03 19:19:22 521

原创 Scala中的类型参数

类型参数是什么？类型参数其实就类似于Java中的泛型。先说说Java中的泛型是什么，比如我们有List a = new ArrayList()，接着a.add(1)，没问题，a.add("2")，然后我们a.get(1) == 2，对不对？肯定不对了，a.get(1)获取的其实是个String——"2"，String——"2"怎么可能与一个Integer类型的2相等呢？所以Java中提出了泛型

2017-09-03 18:54:47 1615

原创 Scala中的Actor

Scala的Actor类似于Java中的多线程编程。但是不同的是，Scala的Actor提供的模型与多线程有所不同。Scala的Actor尽可能地避免锁和共享状态，从而避免多线程并发时出现资源争用的情况，进而提升多线程编程的性能。此外，Scala Actor的这种模型还可以避免死锁等一系列传统多线程编程的问题。Scala提供了Actor trait来让我们更方便地进行actor多线程编程，就A

2017-09-03 18:45:53 566

原创 Scala中的隐式转换

Scala提供的隐式转换和隐式参数功能，是非常有特色的功能。是Java等编程语言所没有的功能。它可以允许你手动指定，将某种类型的对象转换成其他类型的对象。通过这些功能，可以实现非常强大，而且特殊的功能。Scala的隐式转换，其实最核心的就是定义隐式转换函数，即implicit conversion function。定义的隐式转换函数，只要在编写的程序内引入，就会被Scala自动使用。Scal

2017-09-03 17:02:13 503

转载 Zookeeper的介绍

一、ZooKeeper的背景1.1 认识ZooKeeperZooKeeper---译名为“动物园管理员”。动物园里当然有好多的动物，游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物，而不是像走在原始丛林里，心惊胆颤的被动物所观赏。为了让各种不同的动物呆在它们应该呆的地方，而不是相互串门，或是相互厮杀，就需要动物园管理员按照动物的各种习性加以分类和管理，

2017-09-03 10:36:44 558

原创 MapReduce Join

1. 概述在传统数据库（如：MySQL）中，JOIN操作是非常常见且非常耗时的。而在Hadoop中进行JOIN操作，同样常见且耗时，由于hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File

2017-09-02 22:15:46 338

转载 Namenode HA原理详解

注：转自blog.csdn.net/tantexianNamenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA，本文将详细描述NameNode HA内部的设计与实现。一、为什么要Namenode HA？1. NameNode High Availability即高可用。2. NameNode 很

2017-09-02 20:20:26 379

原创 MapReduce之shuffle

从map()的输出到reduce()的输入，中间的过程被称为shuffle过程。map side1.在写入磁盘之前，会先写入环形缓冲区(circular memory buffer),默认100M(mapreduce.task.io.sort.mb可修改),当缓冲区内容达到80M(mapreduce.map.sort.spill.percent可修改),缓冲区内容会被溢写到

2017-09-02 19:35:26 461

原创 Hadoop核心模块之Yarn

一、Yarn的基本架构YARN总体上仍然是Master/Slave结构，在整个资源管理框架中，ResourceManager为Master，NodeManager为Slave，ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时，需要提供一个用以跟踪和管理这个程序的ApplicationMaster，它负责向Resource

2017-09-02 17:13:35 455

原创 Hadoop核心模块之MapReduce

一、MapReduce是什么MapReduce是Google的一项重要技术，它首先是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。但对许多开发者来说，自己完完全全实现一个并行计算程序难度太大，而MapReduce就是一种简化并行计算的编程模型，它使得那些没有多少并行计算经验的开发人员也可以开发并行应用程序。这也就是MapReduce的价值所在

2017-09-02 16:30:55 713

原创 HDFS分布式文件存储系统

一、各部分介绍1.1 NameNodeNamenode 是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。文件操作，NameNode 负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟哪个DataNode联系，否则NameNode会

2017-09-02 15:57:21 6814

原创大数据协作框架之Oozie

一、Oozie的介绍一个基于工作流引擎的开源框架，是由Cloudera公司贡献给Apache的，它能够提供对HadoopMapReduce和Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。Oozie工作流定义，同JBoss jBPM提供的jPDL一样，也提供了类似的流程定义语言hPDL，通过XML文件格式来实现流程的定义。对于工作流系统，一般都

2017-09-02 10:35:37 436

原创大数据协作框架简介

“大数据协作框架”其实就是一个统称，实际上就是Hadoop 2.x生态系统中几个辅助hadoop 2.x框架。在此，主要是以下四个框架：1）数据转换工具Sqoop2）文件收集库框架Flume3）任务调度框架Oozie4）大数据Web工具Hue分析数据的来源？分析数据主要主要有以下两个来源：1）RDBMS：数据大量存储在RDBMS（Oracle、MySQL、DB2

2017-09-01 21:18:28 1642

原创 Hive中的四种排序

一、Order byorder by会对输入的数据做全局排序，因此只有一个reducer，多个reducer无法保证全局有序。只有一个reducer的弊端在于当输入的数据量较大时，需要较长的计算时间。order by跟数据库中的order by功能一致，按照某一项或几项排序输出。它与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下

2017-09-01 15:20:01 6292

转载 Hive函数大全

一、关系运算：1. 等值比较: =语法：A=B操作类型：所有基本类型描述: 如果表达式A与表达式B相等，则为TRUE；否则为FALSE举例：hive> select 1 from lxw_dual where 1=1;12. 不等值比较: 语法: A 操作类型: 所有基本类型描述: 如果表达式A为NULL，或者表达式B为NULL，返回NULL；如果表达式

2017-09-01 12:50:46 598

原创 Hive的安装模式、体系架构及优点

一、Hive的安装模式Hive有三种安装模式，分别是：嵌入模式、本地模式和远程模式。1.1 嵌入模式（1）元数据信息被保存在自带的Deybe数据中（2）只允许创建一个连接（3）多用于Demo1.2 本地模式（1）元数据信息被保存在MySQL数据库（2）MySQL数据库与Hive运行在同一台物理机器上（3）多用于开发和测试1.3

2017-09-01 10:56:24 971

转载 Hive数据仓库与数据库的异同

由于Hive采用了SQL的查询语言HQL，因此很容易将hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处。本文将从多个方面来阐述Hive和数据库的差异。数据库可以用在Online的应用中，但是Hive是为数据仓库而设计的，清楚这一点，有助于从应用角度理解Hive的特性。1.查询语言。由于 SQL 被广泛的应用在数据仓

2017-09-01 09:19:40 983

象在舞的技术专栏