自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(281)
  • 资源 (1)
  • 收藏
  • 关注

原创 购买意向建模-数据清洗

背景:需要根据用户的问卷提炼特征,进行建模预测用户的购买意向。但是实际情况是一部分是历史数据嘈乱、而且问卷形式的收集数据,部分用户填写随意不具备参考意义。# -*- coding: utf-8 -*-""""""#1.数据预处理import pandas as pdimport osfrom scipy.interpolate import lagrangedata = ...

2019-04-27 14:15:46 830

原创 OOZIE 4.1 中的 Java动态代理 递归 应用

java动态代理介绍:http://liugang594.iteye.com/blog/2039934/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with

2017-12-01 15:22:20 582

转载 Dubbo与Zookeeper、SpringMVC整合和使用(负载均衡、容错)

互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,Dubbo是一个分布式服务框架,在这种情况下诞生的。现在核心业务抽取出来,作为独立的服务,使前端应用能更快速和稳定的响应。第一:介绍Dubbo背景大规模服务化之前,应用可能只是通过RMI或Hessian等工具,简单的暴露和引用远程服务,通过配置服务的URL地址进行调用,通过F5等硬件进行负载均

2017-09-29 18:55:19 4349

原创 kettle 7.1 集成 HDP2.6 写入HDFS 报错问题

不仅HDP2.6存在问题, 在与Apache Hadoop 2.6.4集成过程中也出现同样的问题。2017/06/30 12:18:18 - 生成随机数.1 - 完成处理 (I=0, O=0, R=1, W=1, U=0, E=0) 2017/06/30 12:18:18 - 生成随机数.2 - 完成处理 (I=0, O=0, R=1, W=1, U=0, E=0) 2017/06/30 12

2017-06-30 15:26:00 12429 4

转载 [翻译]Kafka Streams简介: 让流处理变得更简单

看到一篇不错的译文,再推送一拨转发自:http://www.cnblogs.com/devos/p/5616086.htmlIntroducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams。当时Kafka Streams还没有正式发布,所以具体的API和功能和0.10.0.

2017-06-23 17:29:26 4840

原创 Spark SQL 函数操作

Spark 内置函数 使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果是返回一个Column对象,而DataFrame天生就是”A distributed collection of data organized into named columns.”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性,例如说

2016-12-11 13:04:50 19224

原创 Spark SQL 集成ElasticSearch的案例实战

Spark SQL 集成ElasticSearch的案例实战ElasticSearch 概念回顾 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可

2016-12-10 23:05:01 10931 2

原创 Spark SQL Hive数据源复杂综合案例实战

Spark SQL Hive数据源复杂综合案例实战(读写各种分区表)Hive数据源来源Spark SQL除了支持SQLContext之外,还支持HIVESQL语法,利用HIVEContext来创建,HiveContext继承自SQLContext,但是增加了在Hive表中数据库中查找,同时也支持hql(方法)。Hiveql的功能要比sql的功能要强大很多。使用HiveContext,可以执行Hi

2016-12-10 23:03:52 6653

转载 Spark性能优化:数据倾斜调优

Spark性能优化:数据倾斜调优前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spar

2016-12-08 14:24:10 4820

转载 Spark性能优化:资源调优篇

Spark性能优化:资源调优篇 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供

2016-12-07 14:12:15 4253

转载 Spark性能优化:开发调优篇

Spark性能优化:开发调优篇1、前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了

2016-12-07 12:33:32 6346

原创 Spark 开发调优(一)

Spark性能优化 - 开发调优优化一 避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、reduce等)串起来,这个“RDD串”,就是RDD lin

2016-12-07 10:36:28 6791 2

转载 spark internal - 作业调度

spark internal - 作业调度让我们看看在架构师的眼里,作业调度是一种怎样的形态 作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/在Spark中作业调度的相关类最重要的就是DAGScheduler,DAGScheduler顾名思义就是基于DAG图的Sc

2016-12-04 14:24:59 4562

转载 Spark弹性分布式数据集RDD详解

【Spark】弹性分布式数据集RDD概述弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache

2016-12-03 13:01:06 11595

原创 DAGScheduler源码解析(一)

Spark 源码理解 DAGSchedulerDAGScheduler是Spark中比较重要的一部分,它属于高级调度,主要实现stage的划分,接着生成整个DAG图,以及如何为每个stage 生成任务集,并且将任务提交给TaskScheduler,基于这两点,我们对DAGScheduler的源码展开阅读,下面是DAGScheduler的简单构成图在讲述DAG之前,先介绍DAGScheduler中几个

2016-12-02 09:37:41 5569

原创 DAGScheduler 和 TaskScheduler 的关系

DAGScheduler 和 TaskScheduler的联系让我们看看这个图, 1.[Applicatio 1] Driver(代表一个Application) 2. [Job ==>1] 在SparkContext的创建过程中,sc会创建DAGScheduler和TaskScheduler,DAGScheduler主要对application划分stage,创建一批task放到taskset

2016-12-01 19:27:35 5281

原创 Spark Worker内部工作原理

Worker Worker是一个基于AKKA Actor 的Actor模型,和Master,Driver,进行通信的时候 都是通过在receiver方法中进行样例类的时间匹配,支持Worker同时实现了ActorLogReceive的trait,ActorLogReceive里面复写receive方法,对子类暴露出receiveWithLogging方法,worker只需要复写这个方法就可以了,

2016-12-01 14:22:48 7589

原创 SparkConext的构建过程

SparkContext 的构建的过程SparkContext的初始化综述SparkContext是进行Spark应用开发的主要接口,是Spark上层应用与底层应用实现的中转站,即整个应用的上下文,控制应用的生命周期。SparkContext在初始化的过程中,主要涉及以下内容SparkEnv:线程级别的上下文,存储运行时的重要组件的引用。MapOutPutTracker:负责Shuffle元信息

2016-12-01 00:03:39 4660

原创 Spark on Yarn

Spark ON Yarn深度剖析我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系? Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么

2016-11-29 22:58:54 4910

原创 Spark RDD 依赖关系

Spark RDD的依赖关系RDD之间的依赖关系分为两种,分别是NarrowDependency与ShuffleDependency,其中ShuffleDependency为子RDD的每个Partition都依赖于父RDD的所有Partition,而NarrowDependency则只依赖一个或部分的Partition。下图的groupBy与join操作是ShuffleDependency,map

2016-11-29 19:23:22 5605

原创 Spark 内核解析图

Spark 内核调度架构我们要学习的概念,以及下面这些角色在集群中的功能Applicationspark-submitDriverSparkContextMasterWorkerExecutorJobDAGSchedulerTaskSchedulerShuffleMapTask and ResultTask先来看看我们画的一张图这个集群模式是Standalone的Drive

2016-11-29 18:55:36 5395

转载 RDD原理详解

RDD 原理在这些特性中,最难实现的是容错性,一般来说,分布式数据集的容错性有两种方式,一般来说,分布式数据集的容错性有两种方式:即数据检查点和记录数据的更新。我们面向的是大规模数据分析,数据检查点操作成本很高:需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源(在内存中复制数据可以减少需要缓存的数据量,而存储到磁盘则会拖慢应用程序)

2016-11-29 14:01:58 5308

原创 土肥圆的猿

欢迎来到 三毛 的个人博客!!! 邮箱:[email protected] 博客主页:http://blog.csdn.net/qq_16103331

2016-11-29 11:58:12 4631

原创 Spark 排序原理

Spark基本排序原理经典wordcount排序原理,单词个数降序Java版BasicSortpublic class BasicSort {public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName(BasicSort.class.getSimpleName()).setMa

2016-11-29 11:29:51 5607

原创 RDD持久化原理与共享变量

RDD 持久化工作原理Spark非常重要的一个功能特性就是可以将RDD 持久化在内存中,当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition,这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面直接使用该RDD ,而不需要计算多次该RDD巧妙使用RDD持

2016-11-29 11:06:35 6099

原创 Spark 调度架构原理深度解析

Spark 调度框架原理图(深度)我们的说明是基于Spark standalone模式来给大家说明的,集群里面一主二从,也就是说有一个Master,两个Worker节点 Driver spark-submit.sh Driver我们用来向Spark 集群提交spark程序的, 最最重要的作用就是创建SparkContext,用于创建RDD ,以及等的操作 在生产环境里面,一般都会有一台单

2016-11-28 20:07:09 4625

原创 Spark 调度架构原理解析

Spark 调度架构原理解析 1. 启动spark集群,就是执行sbin/start-all.sh ,启动master和多个worker节点,master主要作为集群的管理和监控,worker节点主要担任运行各个application的任务。master节点需要让worker节点汇报自身状况,比如CPU,内存多大,这个过程都是通过心跳机制来完成的 2. master收到worker的汇报信息之后

2016-11-27 12:30:56 4477

原创 spark-submit

spark-submitjava程序部署到集群在spark 目录下创建一个脚本 spark-submit.sh/opt/spark/bin/spark-submit \--class $1 \--num-executors 1 \--driver-memory 1g \--executor-memory 1g \--executor-cores 2 \/opt/jars/spark/sp

2016-11-24 22:54:40 4473

原创 spark RDD ,wordcount案例解析

spark RDD ,wordcount案例解析spark RDD 内存计算模型 数据来源:可以从HDFS文件,Hive表,Hbase,本地磁盘,MQ spark集群,RDD中的数据都是存放在worker,都分区的,你就可以简单的理解为worker就是分区,一个worker里面可以有多个partitionMaster 主节点将rdd划分为3个patition,存放数据源,在worker迭代

2016-11-24 19:58:12 10574

原创 优酷hadoop mapred 面试题[find friends]

package com.sanmao.hadoop_02.mianshi;import com.sanmao.hadoop_02.mr.WordCountTest;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;

2016-11-23 19:47:14 4239

原创 玩shell(杂碎一)

查看后台线程 ps -ef | grep spark 杀死进程 kill -9 pid

2016-11-23 18:41:28 3951

原创 Scala快跑系列【面向对象入门】

Scala中的类在本节中,你将会学习如何用Scala实现类。如果你了解Java中的类,你不会觉得这有多难,并且你会很享受Scala更加精简的表示法带来的便利。本节的要点包括:1. 类中的字段自动带有getter方法和setter方法2. 你可以用定制的getter/setter方法替换掉字段的定义,而不必修改使用类的客户端,这就是所谓的"统一访问原则"3. 用@BeanProperty注解来生

2016-11-18 09:27:29 4190

原创 Java面试宝典【java基础部分】(一)

1、一个”.java”源文件中是否可以包括多个类(不是内部类)?有什么限制?可以有多个类,但只能有一个 public 的类,并且 public 的类名必须与文件名相一致。2、 Java 有没有 goto?java 中的保留字,现在没有在 java 中使用3、说说&和&&的区别。&和&&都可以用作逻辑与的运算符,表示逻辑与( and),当运算符两边的表达式的结果都 为 true 时,整个运算结果才为

2016-11-17 09:29:32 4159

原创 关于ElasticSearch集群自动扫描同网段错误

关于集群搭建 , discovery.zen 代表ES的自动发现节点机制,ES是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。 **如果是不同网段的节点如果组成ES集群 禁用自动发现机制 discovery.zen.ping.multicast.enabled:f

2016-11-14 18:47:36 5003

原创 集群storm启动脚本

#!/bin/shecho "#######################"echo "###"echo "## 这是storm的一键启动脚本"echo "##"echo "########################"##首先启动当前机器,即master上的storm进程: nimbus 和 ui [core]echo "启动master上的nimbus"nohup /opt/

2016-11-13 20:41:20 1286

原创 消息中间件Kafka

Kafka简介消息 Message网络中的两台计算机或者两个通讯设备之间传递的数据。例如说:文本、音乐、视频等内容。队列 Queue一种特殊的线性表(数据元素首尾相接),特殊之处在于只允许在首部删除元素和在尾部追加元素。入队、出队。 消息队列 MQ 消息+队列,保存消息的队列。消息的传输过程中的容器;主要提供生产、消费接口供外部调用做数据的存储和获取。Kafka是分布式的发布—订阅消息系统

2016-11-07 17:05:02 8072 1

原创 大数据之Hbase[JavaAPI-CRUD]

package com.sanmao.hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescrip

2016-11-03 18:58:12 4619 1

原创 大数据之Hive(笔记二)

表的分类 内部表(受控表) 表中数据的生命周期受到的表定义的影响,也就是说当表的定义被删除的时候,表中数据随之被删除。 内部表的字段表示:table_type: managed_table 可以通过desc extended tblName;来查看表的详细信息 外部表 表中数据的生命周期不受的表定义的影响,也

2016-11-02 20:07:21 4213

原创 大数据之Hive笔记(一)

笔记 Hadoop 是一个适合于海量数据的分布式存储和分布式计算的框架。 两大核心 HDFS(hadoop distributed file system) 分布式存储 MapReduce 分布式计算 Hadoop的访问方式 WebGUI 50070–>查看hdfs数据,以及查看namenode,da

2016-10-31 21:00:33 4347

原创 大数据之hadoop[序列化与压缩]

Hadoop的序列化 序列化:数据从内存中的到输出流,比如磁盘,网络,也就是说数据出内存的过程就是序列化的过程。 反序列化:数据从输入流到内存缓冲区,比如从磁盘、网络,也就是说数据进入内存的过程就是发序列化的过程,和序列化互为逆过程。 Hadoop自定义序列化类的案例 需求: 是电信一段日志记录的表结构,现需要统计每一个手机号码的upPackNum、

2016-10-26 18:31:43 4160

Hibernate_基础汇总(一)

Hibernate_基础汇总(一)

2016-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除