2017年01月_love others as self

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Greenplum学习

如果想在数据仓库中快速查询结果，可以使用greenplum。Greenplum数据库也简称GPDB。它拥有丰富的特性：第一，完善的标准支持：GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展；从应用编程接口上讲，它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL，NewSQL和Hadoop 对 SQL 的支

2017-01-22 17:32:14 2390

转载开源日志系统比较：scribe、chukwa、kafka、flume

1. 背景介绍许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；（3）具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水

2017-01-22 14:44:35 469

转载恐怖的大数据

某比萨店的电话铃响了，客服人员拿起电话。客服：XXX比萨店。您好，请问有什么需要我为您服务？顾客：你好，我想要一份……客服：先生，烦请先把您的会员卡号告诉我。顾客：16846146*。客服：陈先生，您好！您是住在泉州路一号12楼1205室，您家电话是2646，您公司电话是4666，您的手机是1391234**。请问您想用哪一个电话付费？顾客：你为什么

2017-01-18 16:26:23 377

转载 ELK 在 Spark 集群的应用

概述大数据处理技术越来越火,云计算平台也如火如荼,二者犹如 IT 列车的两个车轮,相辅相成,高速发展。如果我们将大数据处理平台比作一个可能会得病的人的话，那么日志分析系统就是给病人诊断的医生。由于集群甚大，几百台机器都是起步价，甚至可能会有上千台、上万台机器同时协作运行。如此大的集群，不可能一点问题都不出,就像一个人不可能不得病一样。如果出现问题，如何快速的找到问题的根源并对症下药，则显得

2017-01-18 16:11:22 1150

转载 Apache kafka 工作原理介绍

消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列，应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中，为了集成分布式应用，开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息，对应用提供公共的信息交换机制是重要的。常

2017-01-18 15:34:40 227

转载 SMP、NUMA、MPP体系结构介绍

从系统架构来看，目前的商用服务器大体可以分为三类，即对称多处理器结构 (SMP ： Symmetric Multi-Processor) ，非一致存储访问结构 (NUMA ： Non-Uniform Memory Access) ，以及海量并行处理结构 (MPP ： Massive Parallel Processing) 。它们的特征分别描述如下：1. SMP(Symmetric Multi

2017-01-17 09:49:09 347

转载 UDTF详解

1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, cl

2017-01-16 10:49:37 9130

原创大数据架构详解从数据获取到深度学习读书笔记

我们将大数据按处理时间的跨度要求可以分为以下几类：1 基于实时数据流的数据处理（streaming Data processing),通常的是假跨度在数百毫秒到数秒之间2 基于历史数据的交互式查询（Interactive Query)，通常时间跨度数十秒到数分钟之间3 复杂的批量数据处理(batch data Processing),通常的时间跨度在几分钟到数小时之间

2017-01-15 21:47:20 2535

转载大数据采集平台的架构分析

随着大数据越来越被重视，数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台：　　Apache Flume　　Fluentd　　Logstash　　Chukwa　　Scribe　　Splunk Forwarder　　大数据平台与数据采集　　任何完整的大数据平台，一般包括以下的几个过程：　　数据采集　　数据存储

2017-01-15 21:37:26 2474 1

转载 Impala与Hive的比较

1. Impala架构Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的 Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase

2017-01-10 09:58:46 331

原创 excle处理大数据常用操作

1 在做报表的时候我们可能希望显示：在单元格里选择自定义格式并在类型栏里输入[$-409]yyyy-m-d h:mm:ss;@就可以了2 excle的去重功能3 excle的数据透视功能

2017-01-09 22:03:48 2094

转载 impala如何出现hive表的数据

深入学习Impala的最主要一个原因就是目前在使用Impala的时候遇到了各种了性能问题，之前定位过一次问题，猜测其性能损耗的一个主要原因在INVALIDATE METADATA和-r参数上，但是对此并不是十分理解，因此需要深入一点底理解这些概念，方面更准确地定位问题。下面将从三个角度来分析Impala元数据：Hive元数据库、INVALIDATE METADATA语句和REFRESH语句。

2017-01-09 15:47:32 7429

转载 maven2的pom的依赖管理

给原来java系统新增自动打包功能的时候，因为原来的系统并没有采用maven那样的jar包管理，一般来说所有相关jar都在lib目录下边，而默认的maven2则采用集中式jar包管理，比如都放在${HOME}/.m2/repository，那么如何在原来lib基础上采用maven呢？查看POM的reference，发现dependency有个很有用的scope属性，这个可以解决上述问题：）

2017-01-09 13:34:00 349

原创 Elasticsearch服务器开发第二版读书笔记

首先很想说，很高兴有位同济的大学研究生同学，让我可以在毕业5个月后，还能再次走进图书馆去借自己想看的书籍，比如最近因为工作需要而接触的elasticsearch。传入的文档中的数据怎么转化为倒排索引，查询文本怎样变成可搜索的词---->这个数据转化的过程就是分析.由于其分布性性质和实时功能，许多人把他称为文档数据库。Elaseticsearch把数据存在一个或多个索引上，每个索

2017-01-02 22:30:33 964

书籍包括xgboost_with_python.pdf，Deep Time Series Forecasting with Python.pdf，docdownloader.com_long-short-term-memory-networks-with-python.pdf，Basics for Linear Algebra for Machine Learning Discover the Mathematical Language of Data in Python.pdf，Machine Learning Algorithms.pdf

2018-08-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

何成俭的博客

转载 Greenplum学习

转载开源日志系统比较：scribe、chukwa、kafka、flume

转载恐怖的大数据

转载 ELK 在 Spark 集群的应用

转载 Apache kafka 工作原理介绍

转载 SMP、NUMA、MPP体系结构介绍

转载 UDTF详解

原创大数据架构详解从数据获取到深度学习读书笔记

转载大数据采集平台的架构分析

转载 Impala与Hive的比较

原创 excle处理大数据常用操作

转载 impala如何出现hive表的数据

转载 maven2的pom的依赖管理

原创 Elasticsearch服务器开发第二版读书笔记

机器学习书籍大全

PHP和MySQL.Web开发(原书第4版)高清版

java 微信公众号开发案例

微信公众平台应用开发实战

R数据可视化手册代码

R数据可视化手册

数据挖掘与R语言代码

ggplot2数据分析与图形艺术源代码

spark学习总结

空空如也