自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

远有青山

山外青山楼外楼!

转载 spark学习-16-Spark的Map()和FlatMap()函数使用

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/qq_21383435/article/details/774776811。先看图解释:map函数和faltMap()函数都会像是工厂一样,对你每个元素都做处理map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮) ...

2019-10-14 11:58:24 204

转载 hive常见优化问题汇总

一、总体思想http://blog.csdn.net/u011750989/article/details/120243011、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标再好的硬件没有充分利用起来,都是白扯淡。比如:(1) 启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做通常来说前面的任务启动可以稍带一起做的事情就一起做了...

2019-09-07 00:07:09 166

转载 聊聊同步、异步、阻塞与非阻塞

近来遇到了一些常见的概念,尤其是网络编程方面的概念,如:阻塞、非阻塞、异步I/O等等,对于这些概念自己也没有太清晰的认识,只是很模糊的概念,说了解吧也了解,但是要让自己准确的描述概念方面的具体细节,却说的不那么准确,这也是自己在这几个方面也没有细细考究过的原因吧。经过看了些这几个概念的资料,发现同步、异步、阻塞、非阻塞的概念其实也并不难以理解,在此写下此文,欢迎拍砖,希望多多交流。1 同步与异...

2019-01-21 15:38:21 186

转载 聊聊Linux 五种IO模型

上一篇《聊聊同步、异步、阻塞与非阻塞》已经通俗的讲解了,要理解同步、异步、阻塞与非阻塞重要的两个概念点了,没有看过的,建议先看这篇博文理解这两个概念点。在认知上,建立统一的模型。这样,大家在继续看本篇时,才不会理解有偏差。那么,在正式开始讲Linux IO模型前,比如:同步IO和异步IO,阻塞IO和非阻塞IO分别是什么,到底有什么区别?不同的人在不同的上下文下给出的答案是不同的。所以先限定一下...

2019-01-21 15:35:18 1038

转载 高性能的IO体系设计同步异步阻塞非阻塞

在高性能的IO体系设计中,有几个名词概念常常会使我们感到迷惑不解。具体如下: 序号 问题 1 什么是同步? 2 什么是异步? 3 什么是阻塞? 4 什么是非阻塞? 5 ...

2019-01-21 11:09:52 141

转载 Spark原理

一、Spark原理  1、Spark的运行原理i、分布式Ii、主要基于内存(少数情况基于磁盘)Iii、迭代式计算2、Spark 计算模式 VS  MapReduce  计算模式对比           Mr这种计算模型比较固定,只有两种阶段,map阶段和reduce阶段,两个阶段结束    后,任务就结束了,这意味着我们的操作很有限,只能在map阶段和reduce阶段,    也同时意味着可能需要...

2018-07-03 11:23:11 448

转载 MongoDB + Spark: 完整的大数据解决方案

http://blog.csdn.net/u010385646/article/details/52712605Spark介绍按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表...

2018-03-20 16:32:03 1190

转载 oracle的空间数据库

oracle的空间数据库: 2007-12-21 16:31:12 分类: Oracle 简单研究一下,收藏,详细内容看下面[@more@]1. 什么是oracle的空间数据库

2018-01-19 14:27:25 1091

转载 Spark编程指南——Python版

摘要:对于1个年仅5岁的开源项目来说,其远谈不上尽善尽美,就比如文档相关。本文翻译自Spark Programming Guide,选取了其中使用Python的部分。自开源之日至今,Spark已经5岁了。从最初不到4000行代码发展到当下通用大数据处理引擎的有力竞争者,Spark一直保持着小而紧凑,使许多开发人员更容易理解,也让升级起来更加方便。快、通用让Spark如鱼得水,然而对于1个年仅5

2018-01-16 15:50:34 1010

转载 Hive UDF开发指南

https://www.cnblogs.com/hd-zg/p/5947468.html编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。如果你的函数读和返回都是基础数据类型(Hadoop&Hive 基本writable类型,如Text,IntWritable,LongWriable,DoubleWrit

2018-01-12 17:10:03 638

转载 【Hive七】Hive用户自定义聚合函数(UDAF)

用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题:UDF也可以提供输入多个参数然后输出一个结果的运算,比如加法运算add(3,5),add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么? Java代码  Double evaluate(Double a, Doub

2018-01-11 18:05:43 757

转载 数据预处理_数据清理

1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术:- - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数

2018-01-11 15:40:53 18386 1

转载 ETL处理过程介绍

为提高数据仓库数据质量,需要在ETL过程进行数据清洗。本文首先提出了ETL过程进行数据清洗应解决的问题,然后通过分析现有的ETL处理方式说明应采用数据库中的ETL处理,介绍了数据质量和数据清洗的原理并提出了数据清洗在ETL中的应用模型,最后通过实例说明数据清洗的具体实现。  1 前言ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。

2018-01-11 15:15:34 1038

转载 ETL工具总结

ETL工具总结ETL的考虑      做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升到了一定的理论高度,和原来小打小闹的工具使

2018-01-11 11:47:59 456

转载 ETL介绍与ETL工具比较

ETL介绍与ETL工具比较转载 2017年03月04日 16:10:30标签:ETL本文转载自:http://blog.csdn.net/u013412535/article/details/43462537ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置

2018-01-11 10:08:48 566

转载 最详细大数据项目落地路线图实践总结

最详细大数据项目落地路线图实践总结 2017-01-14 16:38大数据今天,来谈一谈“大数据项目如何落地?”这个话题。从事过多个大数据项目的规划方案及项目落地工作,在这里与大家分享一些心得,主要是关于大数据项目如何成功落地并取得预期目标,也可以说这些是实践出来的观点。对于一个大数据应用项目/产品的落地,可以大致总结为五大步骤阶段:数据规划、数据治理、数据应用、迭代实

2018-01-07 00:32:16 13268 1

转载 ArcGIS矢量数据模型

在过去20年中,矢量数据模型是GIS中变化最大的方面,例如,ESRI公司所开发每种新软件包都对应一种新的矢量数据模型,ArcView对应Shapefile,Arc/Info对应Coverage,ArcGIS对应Geodatabase。Shapefile和Coverage是地理关系数据模型,它利用分离的系统来存储空间数据和属性数据,而Geodatabase是基于对象数据模型,它把空间数据和属性数据存

2017-12-01 14:41:33 3047

转载 架构设计:系统存储(20)——图片服务器:需求和技术选型(2)

v3-5、其它技术选型说明3-5-1、关于关系型数据库关于持久化存储的数据库技术要注意一点,实际上它并不是图片服务的必要组件。例如,我们在进行设计时可以将图片访问的URL地址直接对应图片文件在服务器上的存储地址,并按照一定的规则将图片文件重命名成一个系统中唯一的文件名,最后再删除Redis和Nginx Proxy Cache中可能存在的历史文件数据。这样就算没有数据库技术,

2017-11-24 09:44:52 705

转载 Hive集成Mysql作为元数据

Hive集成Mysql作为元数据默认情况下,Hive元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试。为了支持多用户多会话,则需要一个独立的元数据库,我们使用 MySQL 作为元数据库,Hive 内部对 MySQL 提供了很好的支持,配置一个独立的元数据库需要增加以下几步骤:第一步:安装MySQL服务器端和MySQL客户端,并启动MySQL服务。此步

2017-11-06 16:24:29 439

转载 Hive学习之Metastore及其配置管理

在学习Hive的配置管理参数时,曾将参数分为四类:Hive管理参数、Hive元存储(Metastore)管理参数、与Hadoop交互的管理参数、用于传递运行时信息的参数,当时并没有对Metastore参数进行深入的学习,现在就开始学习这部分的内容。       Hive中表和分区的所有元数据都存储在Hive的元存储(Metastore)中。元数据使用JPOX(Java Persistent O

2017-11-06 15:11:44 916

转载 Spark性能优化指南——基础篇

http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from=timeline&isappinstalled=0#rd Spark性能优化指南——基础篇

2017-10-23 15:59:26 186

转载 spark submit参数调优

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪

2017-10-21 17:21:39 551

转载 IMPDP命令

一、创建逻辑目录,该命令不会在操作系统创建真正的目录,最好以system等管理员创建。        create directory dpdata as '/opt';二、查看管理理员目录(同时查看操作系统是否存在,因为Oracle并不关心该目录是否存在,如果不存在,则出错)        select * from dba_directories;三、给scott用户赋予在指定

2017-09-12 11:49:40 6464

转载 Spark SQL 官方文档-中文翻译

转载请注明出处:http://www.cnblogs.com/BYRans/1 概述(Overview)2 DataFrames2.1 入口:SQLContext(Starting Point: SQLContext)2.2 创建DataFrames(Creating DataFrames)2.3 DataFrame操作(DataFrame Operations)2.4 运

2017-09-01 16:11:59 529 1

转载 Hive2.0函数大全(中文版)

Hive2.0函数大全(中文版)摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数  数学函数Return TypeName (Signatu

2017-08-31 15:17:10 219

转载 Spark 学习入门教程

一、环境准备测试环境使用的cdh提供的quickstart vmHadoop版本:2.5.0-cdh5.2.0Spark版本:1.1.0二、Hello Spark将/usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar移动到/usr/lib/spark/lib/

2017-08-30 08:33:21 312

转载 Hive 中SerDe概述

一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数据进行转换,

2017-08-28 09:23:25 2100

转载 Spark程序模型

下面通过一个经典的示例程序来初步了解Spark的计算模型,过程如下。 1)SparkContext中的textFile函数从HDFS读取日志文件,输出变量file。val file=sc.textFile("hdfs://xxx") 2)RDD中的filter函数过滤带“ERROR”的行,输出errors(errors也是一个RDD)。val errors=file.fil

2017-08-26 15:29:02 417

转载 spark所支持的文件格式

spark所支持的文件格式 1.文本文件在 Spark 中读写文本文件很容易。当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为RDD 的 一个元素。也可以将多个完整的文本文件一次性读取为一个 pair RDD, 其中键是文件名,值是文件内容。 在 Scala 中读取一个文本文件12val inpu

2017-08-26 15:11:11 3462

转载 Hive的数据存储

Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。一、Hive的数据存储在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没

2017-08-26 15:01:01 7845

转载 hive 内部表和外部表的区别和理解

1.创建内部表与外部表的区别是什么?2.external关键字的作用是什么?3.外部表与内部表的区别是什么?4.删除表的时候,内部表与外部表有什么区别?5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的?6.磁盘,hdfs,hive表他们之间的过程是什么样子的?好了,进

2017-08-26 12:00:23 442

转载 SQL中LIKE模糊查询与REGEXP用法说明

最近在优化WordPress数据库的时候,对一些问题通常都是通过搜索来寻求答案,不过在这期间,大多数的WordPress都用到了模糊查询来进行数据库的操作,现在小觉就其中的LIKE模糊查询与REGEXP各种用法及对特殊字符进行记录。首先说下LIKE命令都涉及到的通配符:% 替代一个或多个字符_ 仅替代一个字符[charlist] 字符列中的任何单一字符[^charl

2017-08-26 11:47:57 14064

转载 Thrift

Thrift  是什么?  Thrift源于大名鼎鼎的facebook之手,在2007年facebook提交Apache基金会将Thrift作为一个开源项目,对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传 输通信以及系统之间语言环境不同需要跨平台的特性。所以thrift可以支持多种程序语言,例如:  C++, C#, Cocoa, Erl

2017-08-26 11:11:55 272

转载 linux查找目录下的所有文件中是否含有某个字符串

查找目录下的所有文件中是否含有某个字符串 find .|xargs grep -ri "IBM" 查找目录下的所有文件中是否含有某个字符串,并且只打印出文件名 find .|xargs grep -ri "IBM" -l 1.正则表达式    (1)正则表达式一般用来描述文本模式的特殊用法,由普通字符(例如字符a-z)以及特殊字符(称为元字符,如/、*、?等)组成。   (

2017-08-18 10:48:55 211

转载 Impala:新一代开源大数据分析引擎

原文发表在《程序员》杂志2013年第8期,略有删改。文 / 耿益锋 陈冠诚 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 –

2017-08-18 09:38:21 224

转载 mongodb数据库命令操作

上一节我们讲解了对于MongoDB的一些认识和概念,那么接下来就要切实步入mongodb的学习中了。mongodb不像关系型数据库有很强大的GUI客户端,虽然mongodb也有,但功能和稳定性实在不敢恭维,所以操作mongodb我们大部分都是用类似cmd命令的方式(mongodb称为shell操作)来完成,因此学好mongodb shell操作是非常重要的基础。一、准备工作1、 下

2017-08-17 10:16:42 278

转载 面向 DBA 的 Linux Shell 脚本简介

面向 DBA 的 Linux Shell 脚本简介 作者:Casimir Saternos学习一些在 Linux 上安装、运行和维护 Oracle 数据库所需的基本 bash shell 脚本。本文相关下载: 示例脚本 Oracle 数据库 10g 2005 年 11 月发表大约 7 年前,Orac

2017-08-16 14:34:34 272

转载 流式大数据处理的三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括sp

2017-08-16 09:03:35 239

转载 kafka学习笔记:知识点整理

一、为什么需要消息系统1.解耦:  允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2.冗余:  消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3.扩展性

2017-08-16 08:58:44 179

转载 Apache Kafka:下一代分布式消息系统

简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Apache Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩展;它同时为发布和订阅提供高吞吐量;它支持多订阅者,当失败时能自动平衡消费者;它将消

2017-08-16 08:51:37 199

提示
确定要删除当前文章?
取消 删除