2017年08月_远有青山

转载 Hive2.0函数大全(中文版)

Hive2.0函数大全(中文版)摘要Hive内部提供了很多函数给开发者使用，包括数学函数，类型转换函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数数学函数Return TypeName (Signatu

2017-08-31 15:17:10 346

转载 Spark 学习入门教程

一、环境准备测试环境使用的cdh提供的quickstart vmHadoop版本：2.5.0-cdh5.2.0Spark版本：1.1.0二、Hello Spark将/usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar移动到/usr/lib/spark/lib/

2017-08-30 08:33:21 589

转载 Hive 中SerDe概述

一、背景1、当进程在进行远程通信时，彼此可以发送各种类型的数据，无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输，称为对象序列化；接收方则需要把字节序列恢复为对象，称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数据进行转换，

2017-08-28 09:23:25 3290

转载 Spark程序模型

下面通过一个经典的示例程序来初步了解Spark的计算模型，过程如下。 1）SparkContext中的textFile函数从HDFS读取日志文件，输出变量file。val file=sc.textFile("hdfs://xxx") 2）RDD中的filter函数过滤带“ERROR”的行，输出errors（errors也是一个RDD）。val errors=file.fil

2017-08-26 15:29:02 622

转载 spark所支持的文件格式

spark所支持的文件格式 1.文本文件在 Spark 中读写文本文件很容易。当我们将一个文本文件读取为 RDD 时，输入的每一行都会成为RDD 的一个元素。也可以将多个完整的文本文件一次性读取为一个 pair RDD，其中键是文件名，值是文件内容。在 Scala 中读取一个文本文件12val inpu

2017-08-26 15:11:11 5517

转载 Hive的数据存储

Hive的数据分为表数据和元数据，表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等。下面分别来介绍。一、Hive的数据存储在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的，它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式，也没

2017-08-26 15:01:01 19343 1

转载 hive 内部表和外部表的区别和理解

1.创建内部表与外部表的区别是什么？2.external关键字的作用是什么？3.外部表与内部表的区别是什么？4.删除表的时候，内部表与外部表有什么区别？5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的？6.磁盘，hdfs,hive表他们之间的过程是什么样子的？好了，进

2017-08-26 12:00:23 781

转载 SQL中LIKE模糊查询与REGEXP用法说明

最近在优化WordPress数据库的时候，对一些问题通常都是通过搜索来寻求答案，不过在这期间，大多数的WordPress都用到了模糊查询来进行数据库的操作，现在小觉就其中的LIKE模糊查询与REGEXP各种用法及对特殊字符进行记录。首先说下LIKE命令都涉及到的通配符：% 替代一个或多个字符_ 仅替代一个字符[charlist] 字符列中的任何单一字符[^charl

2017-08-26 11:47:57 29103

转载 Thrift

Thrift 是什么？ Thrift源于大名鼎鼎的facebook之手，在2007年facebook提交Apache基金会将Thrift作为一个开源项目，对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。所以thrift可以支持多种程序语言，例如: C++, C#, Cocoa, Erl

2017-08-26 11:11:55 719

转载 linux查找目录下的所有文件中是否含有某个字符串

查找目录下的所有文件中是否含有某个字符串 find .|xargs grep -ri "IBM" 查找目录下的所有文件中是否含有某个字符串,并且只打印出文件名 find .|xargs grep -ri "IBM" -l 1.正则表达式（1）正则表达式一般用来描述文本模式的特殊用法，由普通字符（例如字符a-z）以及特殊字符（称为元字符，如/、*、?等）组成。（

2017-08-18 10:48:55 322

转载 Impala：新一代开源大数据分析引擎

原文发表在《程序员》杂志2013年第8期，略有删改。文 / 耿益锋陈冠诚大数据处理是云计算中非常重要的问题，自Google公司提出MapReduce分布式处理框架以来，以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础，之后的HBase，Hive，Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 –

2017-08-18 09:38:21 377

转载 mongodb数据库命令操作

上一节我们讲解了对于MongoDB的一些认识和概念，那么接下来就要切实步入mongodb的学习中了。mongodb不像关系型数据库有很强大的GUI客户端，虽然mongodb也有，但功能和稳定性实在不敢恭维，所以操作mongodb我们大部分都是用类似cmd命令的方式（mongodb称为shell操作）来完成，因此学好mongodb shell操作是非常重要的基础。一、准备工作1、下

2017-08-17 10:16:42 487

转载面向 DBA 的 Linux Shell 脚本简介

面向 DBA 的 Linux Shell 脚本简介作者：Casimir Saternos学习一些在 Linux 上安装、运行和维护 Oracle 数据库所需的基本 bash shell 脚本。本文相关下载：示例脚本 Oracle 数据库 10g 2005 年 11 月发表大约 7 年前，Orac

2017-08-16 14:34:34 465

转载流式大数据处理的三种框架：Storm，Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（master node）分发代码，将任务分配给工作节点（worker node）执行。一个拓扑中包括sp

2017-08-16 09:03:35 349

转载 kafka学习笔记：知识点整理

一、为什么需要消息系统1.解耦：　　允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。2.冗余：　　消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。3.扩展性

2017-08-16 08:58:44 278

转载 Apache Kafka：下一代分布式消息系统

简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。Apache Kafka与传统消息系统相比，有以下不同：它被设计为一个分布式系统，易于向外扩展；它同时为发布和订阅提供高吞吐量；它支持多订阅者，当失败时能自动平衡消费者；它将消

2017-08-16 08:51:37 275

转载 kafka详解：Kafka的设计思想、理念

问题导读1.Kafka有何特性？2.Kafka有哪些组件？背景：当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临如下几个挑战：如何收集这些巨大的信息如何分析它如何及时做到如上两点以上几个挑战形成了一个业务需求模型，即生产者生产（pro

2017-08-14 15:35:00 482

转载 Hive JOIN使用详解

Hive是基于Hadoop平台的，它提供了类似SQL一样的查询语言HQL。有了Hive，如果使用过SQL语言，并且不理解Hadoop MapReduce运行原理，也就无法通过编程来实现MR，但是你仍然可以很容易地编写出特定查询分析的HQL语句，通过使用类似SQL的语法，将HQL查询语句提交Hive系统执行查询分析，最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ

2017-08-14 10:32:05 298 1

转载 Hive 基础之：分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每个Hadoop/Hive/DW RD 必须掌握的部分，之前也有几篇文章聊到过 MR/Hive 中的 jo

2017-08-14 09:01:07 311

转载李克华云计算高级群: 292870151 195907286 交流：Hadoop、NoSQL、分布式、lucene、solr、nutch kafka入门：简介、使用场景、设计原理、主要配置及集群搭

一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例

2017-08-11 08:44:44 372

转载 Kafka剖析（一）：Kafka背景及架构介绍

Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展，“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建背景

2017-08-11 08:38:55 221

远有青山