- 博客(14)
- 资源 (11)
- 收藏
- 关注
转载 Greenplum学习
如果想在数据仓库中快速查询结果,可以使用greenplum。Greenplum数据库也简称GPDB。它拥有丰富的特性:第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支
2017-01-22 17:32:14 2390
转载 开源日志系统比较:scribe、chukwa、kafka、flume
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水
2017-01-22 14:44:35 469
转载 恐怖的大数据
某比萨店的电话铃响了,客服人员拿起电话。客服:XXX比萨店。您好,请问有什么需要我为您服务?顾客:你好,我想要一份……客服:先生,烦请先把您的会员卡号告诉我。顾客:16846146*。客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646,您公司电话是4666,您的手机是1391234**。请问您想用哪一个电话付费?顾客:你为什么
2017-01-18 16:26:23 377
转载 ELK 在 Spark 集群的应用
概述大数据处理技术越来越火,云计算平台也如火如荼,二者犹如 IT 列车的两个车轮,相辅相成,高速发展。如果我们将大数据处理平台比作一个可能会得病的人的话,那么日志分析系统就是给病人诊断的医生。由于集群甚大,几百台机器都是起步价,甚至可能会有上千台、上万台机器同时协作运行。如此大的集群,不可能一点问题都不出,就像一个人不可能不得病一样。如果出现问题,如何快速的找到问题的根源并对症下药,则显得
2017-01-18 16:11:22 1150
转载 Apache kafka 工作原理介绍
消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息,对应用提供公共的信息交换机制是重要的。常
2017-01-18 15:34:40 227
转载 SMP、NUMA、MPP体系结构介绍
从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Processor) ,非一致存储访问结构 (NUMA : Non-Uniform Memory Access) ,以及海量并行处理结构 (MPP : Massive Parallel Processing) 。它们的特征分别描述如下:1. SMP(Symmetric Multi
2017-01-17 09:49:09 347
转载 UDTF详解
1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, cl
2017-01-16 10:49:37 9130
原创 大数据架构详解从数据获取到深度学习读书笔记
我们将大数据按处理时间的跨度要求可以分为以下几类:1 基于实时数据流的数据处理(streaming Data processing),通常的是假跨度在数百毫秒到数秒之间2 基于历史数据的交互式查询(Interactive Query),通常时间跨度数十秒到数分钟之间3 复杂的批量数据处理(batch data Processing),通常的时间跨度在几分钟到数小时之间
2017-01-15 21:47:20 2535
转载 大数据采集平台的架构分析
随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台与数据采集 任何完整的大数据平台,一般包括以下的几个过程: 数据采集 数据存储
2017-01-15 21:37:26 2474 1
转载 Impala与Hive的比较
1. Impala架构Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase
2017-01-10 09:58:46 331
原创 excle处理大数据常用操作
1 在做报表的时候我们可能希望显示:在单元格里选择自定义格式并在类型栏里输入[$-409]yyyy-m-d h:mm:ss;@就可以了2 excle的去重功能3 excle的数据透视功能
2017-01-09 22:03:48 2094
转载 impala如何出现hive表的数据
深入学习Impala的最主要一个原因就是目前在使用Impala的时候遇到了各种了性能问题,之前定位过一次问题,猜测其性能损耗的一个主要原因在INVALIDATE METADATA和-r参数上,但是对此并不是十分理解,因此需要深入一点底理解这些概念,方面更准确地定位问题。下面将从三个角度来分析Impala元数据:Hive元数据库、INVALIDATE METADATA语句和REFRESH语句。
2017-01-09 15:47:32 7429
转载 maven2的pom的依赖管理
给原来java系统新增自动打包功能的时候,因为原来的系统并没有采用maven那样的jar包管理,一般来说所有相关jar都在lib目录下边,而默认的maven2则采用集中式jar包管理,比如都放在${HOME}/.m2/repository,那么如何在原来lib基础上采用maven呢?查看POM的reference,发现dependency有个很有用的scope属性,这个可以解决上述问题:)
2017-01-09 13:34:00 349
原创 Elasticsearch服务器开发第二版读书笔记
首先很想说,很高兴有位同济的大学研究生同学,让我可以在毕业5个月后,还能再次走进图书馆去借自己想看的书籍,比如最近因为工作需要而接触的elasticsearch。传入的文档中的数据怎么转化为倒排索引,查询文本怎样变成可搜索的词---->这个数据转化的过程就是分析.由于其分布性性质和实时功能,许多人把他称为文档数据库。Elaseticsearch把数据存在一个或多个索引上,每个索
2017-01-02 22:30:33 964
机器学习书籍大全
2018-08-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人