2016年08月_奔跑-起点

原创 hive concat_w实现将多行记录合并成一行

建表如下：# 创建商品与促销活动的映射表hive -e "set mapred.job.queue.name=pms;set hive.exec.reducers.max=32;set mapred.reduce.tasks=32;drop table if exists product_promotion;create table product_promotion(produc

2016-08-31 18:18:14 5219

原创使用Spark core和SparkSQL的窗口函数分别实现分组取topN的操作

在spark 1.4及以上版本中，针对sparkSQL，添加了很多新的函数，进一步扩展了SparkSQL对数据的处理能力。本篇介绍一个强大的窗口函数 row_number()函数，常用于对数据进行分组并取每个分组中的TopN数据。示例数据如下：class1 90class2 56class1 87class1 76class2 88class1 95class1 7

2016-08-29 18:07:43 4366

原创 Hadoop 开源调度系统zeus

https://github.com/alibaba/zeus对海量数据进行处理时，目前大部分公司都采用Hadoop来对数据进行离线处理，但是由于业务场景，经常一个MR或者Hive或者其他形式的任务无法直接完成业务需要，需要任务之间按照特定关系来执行（任务流），例如任务1执行完成之后，才能执行任务2、任务2执行完成之后才能执行任务3和4，在这种情况下需要一套调度系统把各个任务之间的依赖

2016-08-29 13:32:08 4202

原创 examples / Dataset Wordcount

https://docs.cloud.databricks.com/docs/spark/1.6/index.html#examples/Dataset%20Wordcount.htmlIn this example, we take lines of text and split them up into words. Next, we count the number of o

2016-08-26 17:29:30 1388

原创 Spark DataFrames DataSet

Json文件内容:{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}-- 加载json文件转换成DataFramesscala> val df = sqlContext.jsonFile("/spark/json")warning: there were 1 deprecation

2016-08-26 17:11:47 711

转载 RDD、DataFrame和DataSet的区别

RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。RDD和DataFrameRDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Sp

2016-08-26 15:37:30 808

原创 Spark RDD、DataFrame和DataSet的区别

RDD:优点:1. 编译时类型安全编译时就能检查出类型错误2. 面向对象的编程风格直接通过类名点的方式来操作数据缺点:1. 序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.2. GC的性能开销频繁的创建和销毁对象,势必会增加GC importorg.apac

2016-08-26 15:09:29 1263

原创 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据

2016-08-26 15:05:13 1160

原创 Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速

2016-08-26 15:03:49 1119

原创 ElasticSearch2.1 基于空间位置geo_query距离计算

首先声明我使用的ES版本是2.1，不同版本api可能不尽相同1、首先创建索引mapping（1）方法1[java] view plain copy // 创建索引方法1 public static void createIndex2(String indexName, String indexType) thr

2016-08-23 11:40:41 2626

原创 Spring安全权限管理（Spring Security的配置使用）

1.Spring Security简要介绍Spring Security以前叫做acegi，是后来才成为Spring的一个子项目，也是目前最为流行的一个安全权限管理框架，它与Spring紧密结合在一起。Spring Security关注的重点是在企业应用安全层为您提供服务，你将发现业务问题领域存在着各式各样的需求。银行系统跟电子商务应用就有很大的不同。电子商务系统与企业销售自动化工

2016-08-13 15:00:04 1401

原创 Java8 Lambda表达式教程

1. 什么是λ表达式 λ表达式本质上是一个匿名方法。让我们来看下面这个例子： public int add(int x, int y) { return x + y; }转成λ表达式后是这个样子： (int x, int y) -> x + y;参数类型也可以省略，Java编译器会根据上下文推断出来：

2016-08-10 18:46:31 659

原创单例模式的七种写法

第一种（懒汉，线程不安全）： Java代码 public class Singleton { private static Singleton instance; private Singleton (){} public static Singleton getInstance() { if (instance == nu

2016-08-08 11:06:16 247

原创 tomcat利用setenv对内存的限制和docker中tomcat内存的优雅配置

说起对tomcat内存的限制，对于一个不熟悉的童鞋来说肯定是先google、百度，国内的文章都比较千篇一律。我来说说我在项目中的配置。一、最常见的配置修改catalina.sh或catalina.bat这或许是百度、google搜索到的最多的。下图是开源中国的tomcat配置：当我们打开catalina.sh或catalina.bat瞬间蒙了，几百行不熟悉的脚本，下

2016-08-05 11:35:49 2656

转载 Hindex--华为Hbase二级索引

华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其二级索引方案，这在业界引起极大的反响，甚至有人认为，如果华为早点公布这个方案，hbase的某些问题早就解决了。其核心思想是保证索引表和主表在同一个region server上。更新：目前该方案华为已经开源，详见：https://github.com/Huawei-Hadoop/hindex下面来对其方

2016-08-05 11:22:21 3219

原创腾讯 VS 阿里 VS 携程消息中间件设计方案及思路

背景设计和不断迭代、升级消息中间件方案，为了避免走弯路，希望站在巨头肩膀上，学习经验、吸取精华，推动MQ快速演进，为业务高速扩张提供支撑目标：可靠性（保证消息不丢失）、异步、解耦（无需同时在线、不需要知道对方是谁）。数据的存储级别：内存中的数据（断电丢数据）===》持久化磁盘（磁盘损坏）===》冗余备份（一致性问题）业界MQ设计方案如下：1.阿里Notify架

2016-08-05 11:05:37 869

转载 Kafka副本同步机制理解

http://blog.csdn.net/lizhitao/article/details/51718185构建操作简单的分布式系统,尤其是对微妙的行为,最好的一门艺术是经常收集生产环境经验。Apache Kafka的普及在很大程度上归功于它的设计和操作简单。Apache Kafka更微妙的特性之一是它的复制协议。对于单个集群不同大小工作负载情况下如何自动调优Kafka副本的工

2016-08-05 10:52:44 1281

原创大数据性能调优之HBase的RowKey设计

1 概述HBase是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储，那Rowkey就是KeyValue的Key了，表示唯一一行。Rowkey也是一段二进制码流，最大长度为64KB，内容可以由使用的用户自定义。数据加载时，一般也是根据Rowke

2016-08-04 18:46:43 669

原创 zookeeper运维

尽管zookeeper在编程上有很多的阱陷，API也非常的难用，但zookeeper服务本身可以说是很牢靠的了，所以在网上貌似关于运维的文章比较少。但省心并不代表不会出麻烦，下面总结下zookeeper运维相关的东东。重要的参考资料这里有一个很好的Pdf，介绍了很多zookeeper的东东，作者是zookeeper的committer之一：http://www.infoq.

2016-08-04 16:37:44 539

翻译深度学习概述：从感知机到深度网络

（注：本文译自一篇博客，作者行文较随意，我尽量按原意翻译，但作者所介绍的知识还是非常好的，包括例子的选择、理论的介绍都很到位，由浅入深，源文地址）　　近些年来，人工智能领域又活跃起来，除了传统了学术圈外，Google、Microsoft、facebook等工业界优秀企业也纷纷成立相关研究团队，并取得了很多令人瞩目的成果。这要归功于社交网络用户产生的大量数据，这些数据大都是原始数据，需要被进

2016-08-02 12:41:57 2031

转载 A Deep Learning Tutorial: From Perceptrons to Deep Networks

https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networksIn recent years, there’s been a resurgence in the field of Artificial Intelligence. It’s s

2016-08-02 12:40:32 1143

bbaiggey_bigdata的博客