自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bbaiggey_bigdata的博客

专注大数据 ---架构设计

  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive concat_w实现将多行记录合并成一行

建表如下:# 创建商品与促销活动的映射表hive -e "set mapred.job.queue.name=pms;set hive.exec.reducers.max=32;set mapred.reduce.tasks=32;drop table if exists product_promotion;create table product_promotion(produc

2016-08-31 18:18:14 5219

原创 使用Spark core和SparkSQL的窗口函数分别实现分组取topN的操作

在spark 1.4及以上版本中,针对sparkSQL,添加了很多新的函数,进一步扩展了SparkSQL对数据的处理能力。本篇介绍一个强大的窗口函数 row_number()函数,常用于对数据进行分组并取每个分组中的TopN数据。示例数据如下:class1 90class2 56class1 87class1 76class2 88class1 95class1 7

2016-08-29 18:07:43 4366

原创 Hadoop 开源调度系统zeus

https://github.com/alibaba/zeus对海量数据进行处理时,目前大部分公司都采用Hadoop来对数据进行离线处理,但是由于业务场景,经常一个MR或者Hive或者其他形式的任务无法直接完成业务需要,需要任务之间按照特定关系来执行(任务流),例如任务1执行完成之后,才能执行任务2、任务2执行完成之后才能执行任务3和4,在这种情况下需要一套调度系统把各个任务之间的依赖

2016-08-29 13:32:08 4202

原创 examples / Dataset Wordcount

https://docs.cloud.databricks.com/docs/spark/1.6/index.html#examples/Dataset%20Wordcount.htmlIn this example, we take lines of text and split them up into words. Next, we count the number of o

2016-08-26 17:29:30 1388

原创 Spark DataFrames DataSet

Json文件内容:{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}--  加载json文件转换成DataFramesscala> val df = sqlContext.jsonFile("/spark/json")warning: there were 1 deprecation

2016-08-26 17:11:47 711

转载 RDD、DataFrame和DataSet的区别

RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。RDD和DataFrameRDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Sp

2016-08-26 15:37:30 808

原创 Spark RDD、DataFrame和DataSet的区别

RDD:优点:1.   编译时类型安全 编译时就能检查出类型错误2.   面向对象的编程风格 直接通过类名点的方式来操作数据缺点:1.   序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.2.   GC的性能开销 频繁的创建和销毁对象,势必会增加GC importorg.apac

2016-08-26 15:09:29 1263

原创 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据

2016-08-26 15:05:13 1160

原创 Spark性能优化指南——基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速

2016-08-26 15:03:49 1119

原创 ElasticSearch2.1 基于空间位置geo_query距离计算

首先声明 我使用的ES版本是2.1,不同版本api可能不尽相同1、首先创建索引mapping(1)方法1[java] view plain copy // 创建索引方法1      public static void createIndex2(String indexName, String indexType) thr

2016-08-23 11:40:41 2626

原创 Spring安全权限管理(Spring Security的配置使用)

1.Spring Security简要介绍Spring Security以前叫做acegi,是后来才成为Spring的一个子项目,也是目前最为流行的一个安全权限管理框架,它与Spring紧密结合在一起。Spring Security关注的重点是在企业应用安全层为您提供服务,你将发现业务问题领域存在着各式各样的需求。银行系统跟电子商务应用就有很大的不同。电子商务系统与企业销售自动化工

2016-08-13 15:00:04 1401

原创 Java8 Lambda表达式教程

1. 什么是λ表达式 λ表达式本质上是一个匿名方法。让我们来看下面这个例子:    public int add(int x, int y) {        return x + y;    }转成λ表达式后是这个样子:        (int x, int y) -> x + y;参数类型也可以省略,Java编译器会根据上下文推断出来:

2016-08-10 18:46:31 659

原创 单例模式的七种写法

第一种(懒汉,线程不安全): Java代码  public class Singleton {      private static Singleton instance;      private Singleton (){}        public static Singleton getInstance() {      if (instance == nu

2016-08-08 11:06:16 247

原创 tomcat利用setenv对内存的限制和docker中tomcat内存的优雅配置

说起对tomcat内存的限制,对于一个不熟悉的童鞋来说肯定是先google、百度,国内的文章都比较千篇一律。我来说说我在项目中的配置。一、最常见的配置修改catalina.sh或catalina.bat这或许是百度、google搜索到的最多的。下图是开源中国的tomcat配置:当我们打开catalina.sh或catalina.bat瞬间蒙了,几百行不熟悉的脚本,下

2016-08-05 11:35:49 2656

转载 Hindex--华为Hbase二级索引

华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其二级索引方案,这在业界引起极大的反响,甚至有人认为,如果华为早点公布这个方案,hbase的某些问题早就解决了。其核心思想是保证索引表和主表在同一个region server上。更新:目前该方案华为已经开源,详见:https://github.com/Huawei-Hadoop/hindex下面来对其方

2016-08-05 11:22:21 3219

原创 腾讯 VS 阿里 VS 携程消息中间件设计方案及思路

背景设计和不断迭代、升级消息中间件方案,为了避免走弯路,希望站在巨头肩膀上,学习经验、吸取精华,推动MQ快速演进,为业务高速扩张提供支撑目标:可靠性(保证消息不丢失)、异步、解耦(无需同时在线、不需要知道对方是谁)。 数据的存储级别:内存中的数据(断电丢数据)===》持久化磁盘(磁盘损坏)===》冗余备份(一致性问题)业界MQ设计方案如下:1.阿里Notify架

2016-08-05 11:05:37 869

转载 Kafka副本同步机制理解

http://blog.csdn.net/lizhitao/article/details/51718185构建操作简单的分布式系统,尤其是对微妙的行为,最好的一门艺术是经常收集生产环境经验。Apache Kafka的普及在很大程度上归功于它的设计和操作简单。Apache Kafka更微妙的特性之一是它的复制协议。对于单个集群不同大小工作负载情况下如何自动调优Kafka副本的工

2016-08-05 10:52:44 1281

原创 大数据性能调优之HBase的RowKey设计

1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowke

2016-08-04 18:46:43 669

原创 zookeeper运维

尽管zookeeper在编程上有很多的阱陷,API也非常的难用,但zookeeper服务本身可以说是很牢靠的了,所以在网上貌似关于运维的文章比较少。但省心并不代表不会出麻烦,下面总结下zookeeper运维相关的东东。重要的参考资料这里有一个很好的Pdf,介绍了很多zookeeper的东东,作者是zookeeper的committer之一:http://www.infoq.

2016-08-04 16:37:44 539

翻译 深度学习概述:从感知机到深度网络

(注:本文译自一篇博客,作者行文较随意,我尽量按原意翻译,但作者所介绍的知识还是非常好的,包括例子的选择、理论的介绍都很到位,由浅入深,源文地址)  近些年来,人工智能领域又活跃起来,除了传统了学术圈外,Google、Microsoft、facebook等工业界优秀企业也纷纷成立相关研究团队,并取得了很多令人瞩目的成果。这要归功于社交网络用户产生的大量数据,这些数据大都是原始数据,需要被进

2016-08-02 12:41:57 2031

转载 A Deep Learning Tutorial: From Perceptrons to Deep Networks

https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networksIn recent years, there’s been a resurgence in the field of Artificial Intelligence. It’s s

2016-08-02 12:40:32 1143

数据库插入图片

数据库访问 使用MYSQL数据库,能够完成数据的批量增加、更新、删除操作,以及能够将文件、图片等大资源插入数据库。

2011-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除