自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 购买意向建模-数据清洗

背景: 需要根据用户的问卷提炼特征,进行建模预测用户的购买意向。但是实际情况是一部分是历史数据嘈乱、而且问卷形式的收集数据,部分用户填写随意不具备参考意义。 # -*- coding: utf-8 -*- """ """ #1.数据预处...

2019-04-27 14:15:46 184 0

原创 OOZIE 4.1 中的 Java动态代理 递归 应用

java动态代理介绍:http://liugang594.iteye.com/blog/2039934/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license a...

2017-12-01 15:22:20 303 0

转载 Dubbo与Zookeeper、SpringMVC整合和使用(负载均衡、容错)

互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,Dubbo是一个分布式服务框架,在这种情况下诞生的。现在核心业务抽取出来,作为独立的服务,使前端应用能更快速和稳定的响应。第一:介绍Dubbo背景大规模服务化之前,应用可能只是通过RMI或H...

2017-09-29 18:55:19 4067 0

原创 kettle 7.1 集成 HDP2.6 写入HDFS 报错问题

不仅HDP2.6存在问题, 在与Apache Hadoop 2.6.4集成过程中也出现同样的问题。2017/06/30 12:18:18 - 生成随机数.1 - 完成处理 (I=0, O=0, R=1, W=1, U=0, E=0) 2017/06/30 12:18:18 - 生成随机数.2 ...

2017-06-30 15:26:00 9217 4

转载 [翻译]Kafka Streams简介: 让流处理变得更简单

看到一篇不错的译文,再推送一拨转发自:http://www.cnblogs.com/devos/p/5616086.htmlIntroducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafk...

2017-06-23 17:29:26 4659 0

原创 Spark SQL 函数操作

Spark 内置函数 使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果是返回一个Column对象,而DataFrame天生就是”A distributed collection of data organized i...

2016-12-11 13:04:50 17534 0

原创 Spark SQL 集成ElasticSearch的案例实战

Spark SQL 集成ElasticSearch的案例实战ElasticSearch 概念回顾 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apa...

2016-12-10 23:05:01 9713 2

原创 Spark SQL Hive数据源复杂综合案例实战

Spark SQL Hive数据源复杂综合案例实战(读写各种分区表)Hive数据源来源 Spark SQL除了支持SQLContext之外,还支持HIVESQL语法,利用HIVEContext来创建,HiveContext继承自SQLContext,但是增加了在Hive表中数据库中查找,同时也支持...

2016-12-10 23:03:52 6040 0

转载 Spark性能优化:数据倾斜调优

Spark性能优化:数据倾斜调优前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 1....

2016-12-08 14:24:10 4409 0

转载 Spark性能优化:资源调优篇

Spark性能优化:资源调优篇 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的...

2016-12-07 14:12:15 4044 0

转载 Spark性能优化:开发调优篇

Spark性能优化:开发调优篇1、前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项...

2016-12-07 12:33:32 5922 0

原创 Spark 开发调优(一)

Spark性能优化 - 开发调优优化一 避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,...

2016-12-07 10:36:28 6516 2

转载 spark internal - 作业调度

spark internal - 作业调度让我们看看在架构师的眼里,作业调度是一种怎样的形态 作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 在Spark中作业...

2016-12-04 14:24:59 4217 0

转载 Spark弹性分布式数据集RDD详解

【Spark】弹性分布式数据集RDD概述弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够...

2016-12-03 13:01:06 9998 0

原创 DAGScheduler源码解析(一)

Spark 源码理解 DAGSchedulerDAGScheduler是Spark中比较重要的一部分,它属于高级调度,主要实现stage的划分,接着生成整个DAG图,以及如何为每个stage 生成任务集,并且将任务提交给TaskScheduler,基于这两点,我们对DAGScheduler的源码展...

2016-12-02 09:37:41 5036 0

原创 DAGScheduler 和 TaskScheduler 的关系

DAGScheduler 和 TaskScheduler的联系让我们看看这个图, 1.[Applicatio 1] Driver(代表一个Application) 2. [Job ==>1] 在SparkContext的创建过程中,sc会创建DAGScheduler和TaskSchedu...

2016-12-01 19:27:35 4874 0

原创 Spark Worker内部工作原理

Worker Worker是一个基于AKKA Actor 的Actor模型,和Master,Driver,进行通信的时候 都是通过在receiver方法中进行样例类的时间匹配,支持Worker同时实现了ActorLogReceive的trait,ActorLogReceive里面复写recei...

2016-12-01 14:22:48 6247 0

原创 SparkConext的构建过程

SparkContext 的构建的过程SparkContext的初始化综述 SparkContext是进行Spark应用开发的主要接口,是Spark上层应用与底层应用实现的中转站,即整个应用的上下文,控制应用的生命周期。 SparkContext在初始化的过程中,主要涉及以下内容SparkEnv:...

2016-12-01 00:03:39 4405 0

原创 Spark on Yarn

Spark ON Yarn深度剖析 我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系? Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责...

2016-11-29 22:58:54 4720 0

原创 Spark RDD 依赖关系

Spark RDD的依赖关系 RDD之间的依赖关系分为两种,分别是NarrowDependency与ShuffleDependency,其中ShuffleDependency为子RDD的每个Partition都依赖于父RDD的所有Partition,而NarrowDependency则只依赖一个或...

2016-11-29 19:23:22 5077 0

原创 Spark 内核解析图

Spark 内核调度架构我们要学习的概念,以及下面这些角色在集群中的功能 Application spark-submit Driver SparkContext Master Worker Executor Job DAGScheduler TaskScheduler ShuffleMapTas...

2016-11-29 18:55:36 5241 0

转载 RDD原理详解

RDD 原理 在这些特性中,最难实现的是容错性,一般来说,分布式数据集的容错性有两种方式,一般来说,分布式数据集的容错性有两种方式:即数据检查点和记录数据的更新。我们面向的是大规模数据分析,数据检查点操作成本很高:需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多...

2016-11-29 14:01:58 4882 0

原创 土肥圆的猿

欢迎来到 三毛 的个人博客!!! 邮箱:iamsanmao@126.com 博客主页:http://blog.csdn.net/qq_16103331

2016-11-29 11:58:12 4521 0

原创 Spark 排序原理

Spark基本排序原理 经典wordcount排序原理,单词个数降序 Java版BasicSortpublic class BasicSort { public static void main(String[] args) { SparkConf conf = new SparkConf...

2016-11-29 11:29:51 5092 0

原创 RDD持久化原理与共享变量

RDD 持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD 持久化在内存中,当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition,这样的话,对于针对一个RDD反复执行多个操...

2016-11-29 11:06:35 5697 0

原创 Spark 调度架构原理深度解析

Spark 调度框架原理图(深度)我们的说明是基于Spark standalone模式来给大家说明的,集群里面一主二从,也就是说有一个Master,两个Worker节点 Driver spark-submit.sh Driver我们用来向Spark 集群提交spark程序的, 最最重要的...

2016-11-28 20:07:09 4476 0

原创 Spark 调度架构原理解析

Spark 调度架构原理解析 1. 启动spark集群,就是执行sbin/start-all.sh ,启动master和多个worker节点,master主要作为集群的管理和监控,worker节点主要担任运行各个application的任务。master节点需要让worker节点汇报自身状况,比...

2016-11-27 12:30:56 4263 0

原创 spark-submit

spark-submitjava程序部署到集群在spark 目录下创建一个脚本 spark-submit.sh/opt/spark/bin/spark-submit \ --class $1 \ --num-executors 1 \ --driver-memory 1g \ --executor...

2016-11-24 22:54:40 4284 0

原创 spark RDD ,wordcount案例解析

spark RDD ,wordcount案例解析spark RDD 内存计算模型 数据来源:可以从HDFS文件,Hive表,Hbase,本地磁盘,MQ spark集群,RDD中的数据都是存放在worker,都分区的,你就可以简单的理解为worker就是分区,一个worker里面可以有多个...

2016-11-24 19:58:12 8636 0

原创 优酷hadoop mapred 面试题[find friends]

package com.sanmao.hadoop_02.mianshi;import com.sanmao.hadoop_02.mr.WordCountTest; import org.apache.hadoop.conf.Configuration; import org.apache.had...

2016-11-23 19:47:14 4094 0

原创 玩shell(杂碎一)

查看后台线程 ps -ef | grep spark 杀死进程 kill -9 pid

2016-11-23 18:41:28 3894 0

原创 Scala快跑系列【面向对象入门】

Scala中的类在本节中,你将会学习如何用Scala实现类。如果你了解Java中的类,你不会觉得这有多难,并且你会很享受Scala更加精简的表示法带来的便利。 本节的要点包括:1. 类中的字段自动带有getter方法和setter方法 2. 你可以用定制的getter/setter方法替换掉字段的...

2016-11-18 09:27:29 4085 0

原创 Java面试宝典【java基础部分】(一)

1、一个”.java”源文件中是否可以包括多个类(不是内部类)?有什么限制?可以有多个类,但只能有一个 public 的类,并且 public 的类名必须与文件名相一致。2、 Java 有没有 goto?java 中的保留字,现在没有在 java 中使用3、说说&和&&的区...

2016-11-17 09:29:32 4084 0

原创 关于ElasticSearch集群自动扫描同网段错误

关于集群搭建 , discovery.zen 代表ES的自动发现节点机制,ES是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。 **如果是不同网段的节点如果组成ES集群 ...

2016-11-14 18:47:36 4652 0

原创 集群storm启动脚本

#!/bin/sh echo "#######################" echo "###" echo "## 这是storm的一键启动脚本" echo "##" echo "###########...

2016-11-13 20:41:20 1065 0

原创 消息中间件Kafka

Kafka简介消息 Message网络中的两台计算机或者两个通讯设备之间传递的数据。例如说:文本、音乐、视频等内容。队列 Queue一种特殊的线性表(数据元素首尾相接),特殊之处在于只允许在首部删除元素和在尾部追加元素。入队、出队。 消息队列 MQ 消息+队列,保存消息的队列。消息的传输...

2016-11-07 17:05:02 7162 1

原创 大数据之Hbase[JavaAPI-CRUD]

package com.sanmao.hbase;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.HColumnDesc...

2016-11-03 18:58:12 4477 1

原创 大数据之Hive(笔记二)

表的分类 内部表(受控表) 表中数据的生命周期受到的表定义的影响,也就是说当表的定义被删除的时候,表中数据随之被删除。 内部表的字段表示:table_type: managed_table 可以通过desc extended tblN...

2016-11-02 20:07:21 4046 0

原创 大数据之Hive笔记(一)

笔记 Hadoop 是一个适合于海量数据的分布式存储和分布式计算的框架。 两大核心 HDFS(hadoop distributed file system) 分布式存储 MapReduce 分布式计算 Hadoop的访问方式 ...

2016-10-31 21:00:33 4108 0

原创 大数据之hadoop[序列化与压缩]

Hadoop的序列化 序列化:数据从内存中的到输出流,比如磁盘,网络,也就是说数据出内存的过程就是序列化的过程。 反序列化:数据从输入流到内存缓冲区,比如从磁盘、网络,也就是说数据进入内存的过程就是发序列化的过程,和序列化互为逆过程。 Hadoop自定义序列化类的案例 ...

2016-10-26 18:31:43 3998 0

提示
确定要删除当前文章?
取消 删除