gongpulin-CSDN博客

转载 Spark性能调优之合理设置并行度

Spark性能调优之合理设置并行度Spark性能调优之合理设置并行度1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度！当分配完所能分配的最大资源了，然后对应资源去调节程序的并行度，如果并行度没有与资源相匹配，那么导致你分配下去的资源都浪费掉了。同时并行运行，还可以让每

2017-11-14 12:59:51 947

转载 HBase在滴滴出行的应用场景和最佳实践

HBase在滴滴出行的应用场景和最佳实践2017-06-19 CSDN云计算本文主要介绍HBase在滴滴内部的一些典型使用场景，如何设计整个业务数据流，让平台开发者与用户建立清晰、明确、良好的合作关系背景对接业务类型HBase是建立在Hadoop生态之上的Database，源生对离线任务支持友好，又因为LSM树是一个优秀的高吞吐数据库

2017-10-24 23:22:37 2037

转载 HBase最佳实践-用好你的操作系统

转载：http://hbasefly.com/2017/05/24/hbase-linux/终于又切回HBase模式了，之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件（诸如Parquet、Carbondata、Hive、SparkSQL、TPC-DS/TPC-H等），虽然只是走马观花，但也受益良多。对视野、思维模式都有极其重要的作用，至少，扩展了大数据领域的对话圈。这

2017-10-24 23:03:58 285

转载 Hbase多列范围查找（效率）

转载：http://www.cnblogs.com/kxdblog/p/4328699.html#3734157Hbase多列范围查找（效率） Hbase索引表的结构Hbase Rowkey 设计Hbase FilterHbase二级索引 Hbase索引表的结构　　在HBase中，表格的Rowkey按照字典排序，Region按照Row

2017-10-24 13:27:46 2526

转载 elasticSearch 5.0.0 安装部署常见错误或问题

elasticSearch 5.0.0 安装部署常见错误或问题问题一：[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to install syscall filter:Java.lang.UnsupportedOperationException: seccomp

2017-10-18 20:25:19 278

转载 CentOS6.5安装coreseek和sphinx php扩展

coreseek 简介coreseek是一款基于sphinx开源的全文搜索引擎，与sphinx不同的是coreseek增加了一个带有中文分词的词库。下载coreseek安装包本篇使用coreseek3.2.14稳定版进行讲解，最新版本是4.1，但是只有测试版。可以尝试去官方地址http://www.coreseek.cn/下载安装包，不过貌似官方下载地址已经崩溃，如果下载不成功的话可以

2017-10-13 18:04:34 351

转载 Structured Streaming 实现思路与实现概述

Structured Streaming 实现思路与实现概述[酷玩 Spark] Structured Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围：* 2017.07.11 update, Spark 2.2 全系列 √ (已发布：2.2.0)* 2017.05.02 update, Spark 2.1 全系列

2017-10-10 23:36:43 9238

转载 Kafka史上最详细原理总结

KafkaKafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，

2017-09-23 23:24:01 476

转载消息队列探秘-Kafka全面解析

转载：http://www.jianshu.com/p/eba0067b1e1a转载：[http://www.jasongj.com/2015/01/02/Kafka%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/](http://www.jasongj.com/2015/01/02/Kafka%E6%B7%B1%E5%BA%A6%E8%A

2017-09-18 23:43:20 711

转载 MySQL EXPLAIN详解

MySQL EXPLAIN命令是查询性能优化不可缺少的一部分，该文主要讲解explain命令的使用及相关参数说明。EXPLAIN Output Columns列名说明id执行编号，标识select所属的行。如果在语句中没子查询或关联查询，只有唯一的select，每行都将显示1。否则，内层的select语句一般会顺序编号，对应于其在原始语句中的位置

2017-09-18 23:39:45 324

转载 DStream, DStreamGraph 详解

DStream, DStreamGraph 详解[酷玩 Spark] Spark Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本系列内容适用范围：* 2017.07.11 update, Spark 2.2 全系列 √ (已发布：2.2.0)* 2017.05.02 update, Spark 2.1 全系列 √ (已发布：2.

2017-09-10 22:20:16 329

转载 sparkstreaming-JobScheduler, Job, JobSet 详解

JobScheduler, Job, JobSet 详解[酷玩 Spark] Spark Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本系列内容适用范围：* 2016.12.28 update, Spark 2.1 全系列 √ (2.1.0)* 2016.11.14 update, Spark 2.0 全系列 √ (2.0.0,

2017-09-03 23:26:10 1502

转载 Spark2.0源码学习-Job提交与Task的拆分

【Spark2.0源码学习】-9.Job提交与Task的拆分在前面的章节Client的加载中，Spark的DriverRunner已开始执行用户任务类（比如：org.apache.spark.examples.SparkPi），下面我们开始针对于用户任务类（或者任务代码）进行分析一、整体预览基于上篇图做了扩展，增加任务执行的相关交互

2017-08-31 23:56:13 440

转载漫画BitMap在用户画像的应用

两个月之前——为满足用户标签的统计需求，小灰利用Mysql设计了如下的表结构，每一个维度的标签都对应着Mysql表的一列：要想统计所有90后的程序员该怎

2017-08-29 23:30:55 2556

转载 DStream 生成 RDD 实例详解

Quick Example我们在前文 [DStream, DStreamGraph 详解](1.1 DStream, DStreamGraph 详解.md) 中引用了 Spark Streaming 官方的 quick example 的这段对 DStream DAG 的定义，注意看代码中的注释讲解内容：// ssc.socketTextStream() 将创建一个 Socke

2017-08-29 23:20:43 597

转载 Apache Spark 2.0中使用DataFrames和SQL

在Apache Spark 2.0中使用DataFrames和SQL的第一步Spark 2.0开发的一个动机是让它可以触及更广泛的受众，特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此，Spark 2.0现在比以往更易使用。在这部分，我将介绍如何使用Apache Spark 2.0。并将重点关注DataFrames作为新Dataset API的无类型版本。到

2017-08-27 23:51:48 1019

转载 Spark性能优化总结

优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减，首要解决的是程序能够跑通大数据量，资源性能尽量进行优化。基础优化这部分主要对程序进行优化，主要考虑stage、cache、partition等方面。1. Stage在进行shuffle操作时，如reduceByKey、groupByKey，会划分新的stage

2017-08-27 23:45:26 2328 3

转载 apache kafka技术分享系列(目录索引)

目录索引：Kafka使用场景1.为何使用消息系统2.我们为何需要搭建Apache Kafka分布式系统3.消息队列中点对点与发布订阅区别kafka开发与管理：1）apache kafka消息服务2）kafak安装与使用3）apache kafka中server.properties配置文件参数说明4）Apa

2017-08-27 23:35:54 254

原创 RDD、DataFrame、Dataset介绍

rdd优点:编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销频繁的创建和销毁对象, 势必会增加GCval sparkconf = new SparkConf().setMaster

2017-08-27 20:33:25 664

一、合理的Kafka拉取量：设置Spark Streaming最大数据接收率 - 如果运行Streaming应用程序的资源不是很多，数据处理能力跟不上接收数据的速率，可以为应用程序设置一个每秒最大接收记录数进行限制。对于Receiver模式的应用，设置spark.streaming.receiver.maxRate，对于Direct Kafka模式，设置spark.streaming.kafka.

2017-08-27 18:10:15 1160

原创 sparkstreaming读取kafka的两种方式

spark streaming提供了两种获取方式，一种是同storm一样，实时读取缓存到内存中;另一种是定时批量读取。这两种方式分别是：Receiver-baseDirect一、Receiver-base：Spark官方最先提供了基于Receiver的Kafka数据消费模式。不过这种方式是先把数据从kafka中读取出来，然后缓存在内存，再定

2017-08-27 13:59:28 33208

转载 Shell基础

一、Shell中的变量　　任何编程语言中，有关变量的定义，作用范围，赋值等都是最最基础的知识。0、默认变量　　首先介绍几个shell中的默认变量。　　变量含义$0当前脚本名称$1脚本接收的第一个参数$2脚本接收的第二个参数$#脚本接收的所

2017-08-10 19:35:10 616

转载 Spark Streaming编程指南

一、概述　　Spark Streaming是基于Core Spark API的可扩展，高吞吐量，并具有容错能力的用于处理实时数据流的一个组件。Spark Streaming可以接收各种数据源传递来的数据，比如Kafka, Flume, Kinesis或者TCP等，对接收到的数据还可以使用一些用高阶函数（比如map, reduce, join及window）进行封装的复杂算法做进一步的处

2017-07-11 15:29:18 457

转载 Spark Streaming中的操作函数

根据Spark官方文档中的描述，在Spark Streaming应用中，一个DStream对象可以调用多种操作，主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func)　　map操作需要传入一个函数当做参数，具体调用形式为

2017-07-10 20:52:58 457

转载 scala之trait理解

核心内容: 1、混入特质trait的3种方式 2、多重继承构造器执行顺序 3、基于trait的AOP代码实战1、混入特质的3种方式以及多重继承构造器的执行顺序1、除了在类定义中混入特质以外，还可以在特质定义中混入特质以及在对象构造时混入特质 (注意:创建对象时混入特质，要重写trait中的抽象方法 ) 2、特质的构造是有顺序的，从左到

2017-07-10 15:22:14 459

转载利用Flume将MySQL表数据准实时抽取到HDFS

http://blog.csdn.net/wzy0623/article/details/73650053一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时，我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS，然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务，但缺点同样明显，那就是实时性。Sqoop使用MapReduc

2017-07-08 21:18:43 675

转载 Hbase架构以及应用介绍

Hbase全称为Hadoop Database，即hbase是hadoop的数据库，是一个分布式的存储系统。Hbase利用Hadoop的HDFS作为其文件存储系统，利用Hadoop的MapReduce来处理Hbase中的海量数据。利用zookeeper作为其协调工具。本篇文章将重点介绍Hbase三个方面的内容：Hbase体系结构（架构）的介绍、Hbase shell的操作、Hbase的Jav

2017-07-08 21:15:03 561

转载 Sqoop架构以及应用介绍

本篇文章在具体介绍Sqoop之前，先给大家用一个流程图介绍Hadoop业务的开发流程以及Sqoop在业务当中的实际地位。如上图所示：在实际的业务当中，我们首先对原始数据集通过MapReduce进行数据清洗，然后将清洗后的数据存入到Hbase数据库中，而后通过数据仓库Hive对hbase中的数据进行统计与分析，分析之后将分析结果存入到hive表中，然后通过Sqoop这个工具将我们的数据挖

2017-07-08 18:59:26 423

转载 Flume架构以及应用介绍

http://blog.csdn.net/a2011480169/article/details/51544664在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flum

2017-07-08 18:41:58 254

转载大数据环境下该如何优雅地设计数据分层

最近出现了好几次同样的对话场景：问：你是做什么的？答：最近在搞数据仓库。问：哦，你是传统行业的吧，我是搞大数据的。答：……发个牢骚，搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司，都需要对数据仓库有一定的重视，而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了etl、调度、建模在内的完整的理论体系。现

2017-07-02 23:07:59 394

转载 Spark在Windows下的环境搭建

由于Spark是用Scala来写的，所以Spark对Scala肯定是原生态支持的，因此这里以Scala为主来介绍Spark环境的搭建，主要包括四个步骤，分别是：JDK的安装，Scala的安装，Spark的安装，Hadoop的下载和配置。为了突出”From Scratch”的特点（都是标题没选好的缘故），所以下面的步骤稍显有些啰嗦，老司机大可不必阅读，直接跳过就好。　　一．JDK的安装

2017-07-02 21:34:20 286

转载 scala-继承与组合

http://blog.csdn.net/lovehuangjiaju/article/details/47029287主要内容类的继承构造函数执行顺序方法重写匿名类多态与动态绑定组合与继承的使用1 类的继承下类的代码演示了Scala类的继承//Person类class Person(name:String,age:Int){}//Student继

2017-07-02 20:33:10 334

转载 scala-类和对象

http://blog.csdn.net/lovehuangjiaju/article/details/47009607本节主要内容1 类定义、创建对象 2 主构造器 3 辅助构造器类定义、创建对象//采用关键字class定义class Person { //类成员必须初始化，否则会报错 //这里定义的是一个公有成员 var name:Stri

2017-07-02 19:47:06 265

转载 scala-特质

http://blog.csdn.net/ZCF1002797280/article/details/497811551. 为什么没有多重继承准备这个Chapter讲文件和正则表达式，但该内容按照其他语言安排一般都是在最后几章节，所以暂时先忽略该章节，后面会补上。转入正题，如果有两个类Student和Employee，它们都有name这个属性，如果要同时扩展

2017-06-23 23:25:06 372

转载 SparkSQL On Yarn with Hive，操作和访问Hive表

SparkSQL On Yarn with Hive，操作和访问Hive表

2017-04-23 23:30:34 844

转载 hive优化

hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段sele

2017-04-20 10:36:04 301

转载 HBase详细概述

本文首先简单介绍了Hbase,然后重点讲述了HBase的高并发和实时处理数据、HBase数据模型、HBase物理存储、HBase系统架构，HBase调优、HBase Shell访问等。不过在此之前，你可以先了解 Hadoop生态系统，若想运行HBase，则需要先搭建好Hadoop集群环境，可以参考此文搭建5个节点的hadoop集群环境（CDH5）。好了，让我们来学习HBase吧！...

2017-04-05 21:11:26 809

转载跟我学OpenResty(Nginx+Lua)开发目录贴

http://jinnianshilongnian.iteye.com/blog/2190344使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境

2017-02-11 23:24:36 4773

转载 C++指针的概念解读超详细

指针是一个特殊的变量，它里面存储的数值被解释成为内存里的一个地址。要搞清一个指针需要搞清指针的四方面的内容：指针的类型，指针所指向的类型，指针的值或者叫指针所指向的内存区，还有指针本身所占据的内存区。让我们分别说明。先声明几个指针放着做例子：例一：int *ptr; char *ptr; int **ptr; int (*ptr)[3]; int *(*ptr)[4

2017-02-11 17:39:30 304

转载探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探 http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html#icomments“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上

2017-02-11 16:56:33 483

numpy.exe、scipy.exe

空空如也