自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (11)
  • 收藏
  • 关注

转载 Greenplum学习

如果想在数据仓库中快速查询结果,可以使用greenplum。Greenplum数据库也简称GPDB。它拥有丰富的特性:第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支

2017-01-22 17:32:14 2390

转载 开源日志系统比较:scribe、chukwa、kafka、flume

1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水

2017-01-22 14:44:35 469

转载 恐怖的大数据

某比萨店的电话铃响了,客服人员拿起电话。客服:XXX比萨店。您好,请问有什么需要我为您服务?顾客:你好,我想要一份……客服:先生,烦请先把您的会员卡号告诉我。顾客:16846146*。客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646,您公司电话是4666,您的手机是1391234**。请问您想用哪一个电话付费?顾客:你为什么

2017-01-18 16:26:23 377

转载 ELK 在 Spark 集群的应用

概述大数据处理技术越来越火,云计算平台也如火如荼,二者犹如 IT 列车的两个车轮,相辅相成,高速发展。如果我们将大数据处理平台比作一个可能会得病的人的话,那么日志分析系统就是给病人诊断的医生。由于集群甚大,几百台机器都是起步价,甚至可能会有上千台、上万台机器同时协作运行。如此大的集群,不可能一点问题都不出,就像一个人不可能不得病一样。如果出现问题,如何快速的找到问题的根源并对症下药,则显得

2017-01-18 16:11:22 1150

转载 Apache kafka 工作原理介绍

消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息,对应用提供公共的信息交换机制是重要的。常

2017-01-18 15:34:40 227

转载 SMP、NUMA、MPP体系结构介绍

从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Processor) ,非一致存储访问结构 (NUMA : Non-Uniform Memory Access) ,以及海量并行处理结构 (MPP : Massive Parallel Processing) 。它们的特征分别描述如下:1. SMP(Symmetric Multi

2017-01-17 09:49:09 347

转载 UDTF详解

1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, cl

2017-01-16 10:49:37 9130

原创 大数据架构详解从数据获取到深度学习读书笔记

我们将大数据按处理时间的跨度要求可以分为以下几类:1 基于实时数据流的数据处理(streaming Data processing),通常的是假跨度在数百毫秒到数秒之间2 基于历史数据的交互式查询(Interactive Query),通常时间跨度数十秒到数分钟之间3 复杂的批量数据处理(batch data Processing),通常的时间跨度在几分钟到数小时之间

2017-01-15 21:47:20 2535

转载 大数据采集平台的架构分析

随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:  Apache Flume  Fluentd  Logstash  Chukwa  Scribe  Splunk Forwarder  大数据平台与数据采集  任何完整的大数据平台,一般包括以下的几个过程:  数据采集  数据存储

2017-01-15 21:37:26 2474 1

转载 Impala与Hive的比较

1. Impala架构Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase

2017-01-10 09:58:46 331

原创 excle处理大数据常用操作

1 在做报表的时候我们可能希望显示:在单元格里选择自定义格式并在类型栏里输入[$-409]yyyy-m-d h:mm:ss;@就可以了2 excle的去重功能3 excle的数据透视功能

2017-01-09 22:03:48 2094

转载 impala如何出现hive表的数据

深入学习Impala的最主要一个原因就是目前在使用Impala的时候遇到了各种了性能问题,之前定位过一次问题,猜测其性能损耗的一个主要原因在INVALIDATE METADATA和-r参数上,但是对此并不是十分理解,因此需要深入一点底理解这些概念,方面更准确地定位问题。下面将从三个角度来分析Impala元数据:Hive元数据库、INVALIDATE METADATA语句和REFRESH语句。

2017-01-09 15:47:32 7429

转载 maven2的pom的依赖管理

给原来java系统新增自动打包功能的时候,因为原来的系统并没有采用maven那样的jar包管理,一般来说所有相关jar都在lib目录下边,而默认的maven2则采用集中式jar包管理,比如都放在${HOME}/.m2/repository,那么如何在原来lib基础上采用maven呢?查看POM的reference,发现dependency有个很有用的scope属性,这个可以解决上述问题:) 

2017-01-09 13:34:00 349

原创 Elasticsearch服务器开发第二版读书笔记

首先很想说,很高兴有位同济的大学研究生同学,让我可以在毕业5个月后,还能再次走进图书馆去借自己想看的书籍,比如最近因为工作需要而接触的elasticsearch。传入的文档中的数据怎么转化为倒排索引,查询文本怎样变成可搜索的词---->这个数据转化的过程就是分析.由于其分布性性质和实时功能,许多人把他称为文档数据库。Elaseticsearch把数据存在一个或多个索引上,每个索

2017-01-02 22:30:33 964

机器学习书籍大全

书籍包括xgboost_with_python.pdf,Deep Time Series Forecasting with Python.pdf,docdownloader.com_long-short-term-memory-networks-with-python.pdf,Basics for Linear Algebra for Machine Learning Discover the Mathematical Language of Data in Python.pdf,Machine Learning Algorithms.pdf

2018-08-22

PHP和MySQL.Web开发(原书第4版)高清版

PHP和MySQL.Web开发(原书第4版)高清版

2016-08-14

java 微信公众号开发案例

微信公众号开发案例,自己摸索下就能运行了

2016-08-14

微信公众平台应用开发实战

微信公众平台应用开发实战源代码

2016-08-14

R数据可视化手册代码

本书的全部代码,没有错误

2016-04-27

R数据可视化手册

R数据可视化手册

2016-04-27

数据挖掘与R语言代码

数据挖掘与R语言代码,分享快乐,这是我在大学里下载的

2016-04-24

ggplot2数据分析与图形艺术源代码

ggplot2数据分析与图形艺术源代码,里面有一些我学习的笔记

2016-04-24

spark学习总结

我是何成俭,很高兴认识你

2016-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除