张章章Sam-CSDN博客

原创购买意向建模-数据清洗

背景：需要根据用户的问卷提炼特征，进行建模预测用户的购买意向。但是实际情况是一部分是历史数据嘈乱、而且问卷形式的收集数据，部分用户填写随意不具备参考意义。# -*- coding: utf-8 -*-""""""#1.数据预处理import pandas as pdimport osfrom scipy.interpolate import lagrangedata = ...

2019-04-27 14:15:46 983

原创 OOZIE 4.1 中的 Java动态代理递归应用

java动态代理介绍：http://liugang594.iteye.com/blog/2039934/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with

2017-12-01 15:22:20 719

转载 Dubbo与Zookeeper、SpringMVC整合和使用（负载均衡、容错）

互联网的发展，网站应用的规模不断扩大，常规的垂直应用架构已无法应对，分布式服务架构以及流动计算架构势在必行，Dubbo是一个分布式服务框架，在这种情况下诞生的。现在核心业务抽取出来，作为独立的服务，使前端应用能更快速和稳定的响应。第一：介绍Dubbo背景大规模服务化之前，应用可能只是通过RMI或Hessian等工具，简单的暴露和引用远程服务，通过配置服务的URL地址进行调用，通过F5等硬件进行负载均

2017-09-29 18:55:19 4507

原创 kettle 7.1 集成 HDP2.6 写入HDFS 报错问题

不仅HDP2.6存在问题，在与Apache Hadoop 2.6.4集成过程中也出现同样的问题。2017/06/30 12:18:18 - 生成随机数.1 - 完成处理 (I=0, O=0, R=1, W=1, U=0, E=0) 2017/06/30 12:18:18 - 生成随机数.2 - 完成处理 (I=0, O=0, R=1, W=1, U=0, E=0) 2017/06/30 12

2017-06-30 15:26:00 12796

转载 [翻译]Kafka Streams简介: 让流处理变得更简单

看到一篇不错的译文，再推送一拨转发自：http://www.cnblogs.com/devos/p/5616086.htmlIntroducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章，用来介绍Kafka Streams。当时Kafka Streams还没有正式发布，所以具体的API和功能和0.10.0.

2017-06-23 17:29:26 4939

原创 Spark SQL 函数操作

Spark 内置函数使用Spark SQL中的内置函数对数据进行分析，Spark SQL API不同的是，DataFrame中的内置函数操作的结果是返回一个Column对象，而DataFrame天生就是”A distributed collection of data organized into named columns.”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性，例如说

2016-12-11 13:04:50 19439

原创 Spark SQL 集成ElasticSearch的案例实战

Spark SQL 集成ElasticSearch的案例实战ElasticSearch 概念回顾 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可

2016-12-10 23:05:01 11074 2

原创 Spark SQL Hive数据源复杂综合案例实战

Spark SQL Hive数据源复杂综合案例实战（读写各种分区表）Hive数据源来源Spark SQL除了支持SQLContext之外，还支持HIVESQL语法，利用HIVEContext来创建，HiveContext继承自SQLContext，但是增加了在Hive表中数据库中查找，同时也支持hql（方法）。Hiveql的功能要比sql的功能要强大很多。使用HiveContext，可以执行Hi

2016-12-10 23:03:52 6805

转载 Spark性能优化：数据倾斜调优

Spark性能优化：数据倾斜调优前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spar

2016-12-08 14:24:10 5000

转载 Spark性能优化：资源调优篇

Spark性能优化：资源调优篇在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供

2016-12-07 14:12:15 4359

转载 Spark性能优化：开发调优篇

Spark性能优化：开发调优篇1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了

2016-12-07 12:33:32 6457

原创 Spark 开发调优（一）

Spark性能优化 - 开发调优优化一避免创建重复的RDD通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的算子操作（比如map、reduce等）串起来，这个“RDD串”，就是RDD lin

2016-12-07 10:36:28 6920 1

转载 spark internal - 作业调度

spark internal - 作业调度让我们看看在架构师的眼里，作业调度是一种怎样的形态作者：刘旭晖 Raymond 转载请注明出处 Email：colorant at 163.com BLOG：http://blog.csdn.net/colorant/在Spark中作业调度的相关类最重要的就是DAGScheduler，DAGScheduler顾名思义就是基于DAG图的Sc

2016-12-04 14:24:59 4671

转载 Spark弹性分布式数据集RDD详解

【Spark】弹性分布式数据集RDD概述弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象，是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache

2016-12-03 13:01:06 11858

原创 DAGScheduler源码解析(一)

Spark 源码理解 DAGSchedulerDAGScheduler是Spark中比较重要的一部分，它属于高级调度，主要实现stage的划分，接着生成整个DAG图，以及如何为每个stage 生成任务集，并且将任务提交给TaskScheduler，基于这两点，我们对DAGScheduler的源码展开阅读，下面是DAGScheduler的简单构成图在讲述DAG之前，先介绍DAGScheduler中几个

2016-12-02 09:37:41 5705

原创 DAGScheduler 和 TaskScheduler 的关系

DAGScheduler 和 TaskScheduler的联系让我们看看这个图， 1.[Applicatio 1] Driver（代表一个Application） 2. [Job ==>1] 在SparkContext的创建过程中，sc会创建DAGScheduler和TaskScheduler，DAGScheduler主要对application划分stage，创建一批task放到taskset

2016-12-01 19:27:35 5389

原创 Spark Worker内部工作原理

Worker Worker是一个基于AKKA Actor 的Actor模型，和Master，Driver，进行通信的时候都是通过在receiver方法中进行样例类的时间匹配，支持Worker同时实现了ActorLogReceive的trait，ActorLogReceive里面复写receive方法，对子类暴露出receiveWithLogging方法，worker只需要复写这个方法就可以了，

2016-12-01 14:22:48 7747

原创 SparkConext的构建过程

SparkContext 的构建的过程SparkContext的初始化综述SparkContext是进行Spark应用开发的主要接口，是Spark上层应用与底层应用实现的中转站,即整个应用的上下文，控制应用的生命周期。SparkContext在初始化的过程中，主要涉及以下内容SparkEnv：线程级别的上下文，存储运行时的重要组件的引用。MapOutPutTracker:负责Shuffle元信息

2016-12-01 00:03:39 4779

原创 Spark on Yarn

Spark ON Yarn深度剖析我们都知道Spark支持在yarn上运行，但是Spark on yarn有分为两种模式yarn-cluster和yarn-client，它们究竟有什么区别与联系？ Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN )，集群管理负责启动executor进程，编写Spark application 的人根本不需要知道Spark用的是什么

2016-11-29 22:58:54 5037

原创 Spark RDD 依赖关系

Spark RDD的依赖关系RDD之间的依赖关系分为两种，分别是NarrowDependency与ShuffleDependency，其中ShuffleDependency为子RDD的每个Partition都依赖于父RDD的所有Partition，而NarrowDependency则只依赖一个或部分的Partition。下图的groupBy与join操作是ShuffleDependency，map

2016-11-29 19:23:22 5786

原创 Spark 内核解析图

Spark 内核调度架构我们要学习的概念，以及下面这些角色在集群中的功能Applicationspark-submitDriverSparkContextMasterWorkerExecutorJobDAGSchedulerTaskSchedulerShuffleMapTask and ResultTask先来看看我们画的一张图这个集群模式是Standalone的Drive

2016-11-29 18:55:36 5498

转载 RDD原理详解

RDD 原理在这些特性中，最难实现的是容错性，一般来说，分布式数据集的容错性有两种方式，一般来说，分布式数据集的容错性有两种方式：即数据检查点和记录数据的更新。我们面向的是大规模数据分析，数据检查点操作成本很高：需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源（在内存中复制数据可以减少需要缓存的数据量，而存储到磁盘则会拖慢应用程序）

2016-11-29 14:01:58 5420

原创土肥圆的猿

欢迎来到三毛的个人博客！！！邮箱：iamsanmao@126.com 博客主页：http://blog.csdn.net/qq_16103331

2016-11-29 11:58:12 4686

原创 Spark 排序原理

Spark基本排序原理经典wordcount排序原理，单词个数降序Java版BasicSortpublic class BasicSort {public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName(BasicSort.class.getSimpleName()).setMa

2016-11-29 11:29:51 5715

原创 RDD持久化原理与共享变量

RDD 持久化工作原理Spark非常重要的一个功能特性就是可以将RDD 持久化在内存中，当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition，这样的话，对于针对一个RDD反复执行多个操作的场景，就只要对RDD计算一次即可，后面直接使用该RDD ，而不需要计算多次该RDD巧妙使用RDD持

2016-11-29 11:06:35 6228

原创 Spark 调度架构原理深度解析

Spark 调度框架原理图（深度）我们的说明是基于Spark standalone模式来给大家说明的，集群里面一主二从，也就是说有一个Master，两个Worker节点 Driver spark-submit.sh Driver我们用来向Spark 集群提交spark程序的，最最重要的作用就是创建SparkContext,用于创建RDD ,以及等的操作在生产环境里面，一般都会有一台单

2016-11-28 20:07:09 4715

原创 Spark 调度架构原理解析

Spark 调度架构原理解析 1. 启动spark集群，就是执行sbin/start-all.sh ,启动master和多个worker节点，master主要作为集群的管理和监控，worker节点主要担任运行各个application的任务。master节点需要让worker节点汇报自身状况，比如CPU,内存多大，这个过程都是通过心跳机制来完成的 2. master收到worker的汇报信息之后

2016-11-27 12:30:56 4583

原创 spark-submit

spark-submitjava程序部署到集群在spark 目录下创建一个脚本 spark-submit.sh/opt/spark/bin/spark-submit \--class $1 \--num-executors 1 \--driver-memory 1g \--executor-memory 1g \--executor-cores 2 \/opt/jars/spark/sp

2016-11-24 22:54:40 4592

原创 spark RDD ，wordcount案例解析

spark RDD ，wordcount案例解析spark RDD 内存计算模型数据来源:可以从HDFS文件，Hive表，Hbase，本地磁盘，MQ spark集群，RDD中的数据都是存放在worker，都分区的，你就可以简单的理解为worker就是分区，一个worker里面可以有多个partitionMaster 主节点将rdd划分为3个patition，存放数据源，在worker迭代

2016-11-24 19:58:12 10696

原创优酷hadoop mapred 面试题[find friends]

package com.sanmao.hadoop_02.mianshi;import com.sanmao.hadoop_02.mr.WordCountTest;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;

2016-11-23 19:47:14 4301

原创玩shell（杂碎一）

查看后台线程 ps -ef | grep spark 杀死进程 kill -9 pid

2016-11-23 18:41:28 4014

原创 Scala快跑系列【面向对象入门】

Scala中的类在本节中，你将会学习如何用Scala实现类。如果你了解Java中的类，你不会觉得这有多难，并且你会很享受Scala更加精简的表示法带来的便利。本节的要点包括：1. 类中的字段自动带有getter方法和setter方法2. 你可以用定制的getter/setter方法替换掉字段的定义，而不必修改使用类的客户端，这就是所谓的"统一访问原则"3. 用@BeanProperty注解来生

2016-11-18 09:27:29 4265

原创 Java面试宝典【java基础部分】（一）

1、一个”.java”源文件中是否可以包括多个类（不是内部类）？有什么限制？可以有多个类，但只能有一个 public 的类，并且 public 的类名必须与文件名相一致。2、 Java 有没有 goto?java 中的保留字，现在没有在 java 中使用3、说说&和&&的区别。&和&&都可以用作逻辑与的运算符，表示逻辑与（ and），当运算符两边的表达式的结果都为 true 时，整个运算结果才为

2016-11-17 09:29:32 4212

原创关于ElasticSearch集群自动扫描同网段错误

关于集群搭建， discovery.zen 代表ES的自动发现节点机制，ES是一个基于p2p的系统，它先通过广播寻找存在的节点，再通过多播协议来进行节点之间的通信，同时也支持点对点的交互。 **如果是不同网段的节点如果组成ES集群禁用自动发现机制 discovery.zen.ping.multicast.enabled:f

2016-11-14 18:47:36 5124

原创集群storm启动脚本

#!/bin/shecho "#######################"echo "###"echo "## 这是storm的一键启动脚本"echo "##"echo "########################"##首先启动当前机器,即master上的storm进程: nimbus 和 ui [core]echo "启动master上的nimbus"nohup /opt/

2016-11-13 20:41:20 1372

原创消息中间件Kafka

Kafka简介消息 Message网络中的两台计算机或者两个通讯设备之间传递的数据。例如说：文本、音乐、视频等内容。队列 Queue一种特殊的线性表（数据元素首尾相接），特殊之处在于只允许在首部删除元素和在尾部追加元素。入队、出队。消息队列 MQ 消息+队列，保存消息的队列。消息的传输过程中的容器；主要提供生产、消费接口供外部调用做数据的存储和获取。Kafka是分布式的发布—订阅消息系统

2016-11-07 17:05:02 8204 1

原创大数据之Hbase[JavaAPI-CRUD]

package com.sanmao.hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescrip

2016-11-03 18:58:12 4695

原创大数据之Hive（笔记二）

表的分类内部表(受控表) 表中数据的生命周期受到的表定义的影响，也就是说当表的定义被删除的时候，表中数据随之被删除。内部表的字段表示：table_type: managed_table 可以通过desc extended tblName;来查看表的详细信息外部表表中数据的生命周期不受的表定义的影响，也

2016-11-02 20:07:21 4298

原创大数据之Hive笔记(一)

笔记 Hadoop 是一个适合于海量数据的分布式存储和分布式计算的框架。两大核心 HDFS(hadoop distributed file system) 分布式存储 MapReduce 分布式计算 Hadoop的访问方式 WebGUI 50070–>查看hdfs数据，以及查看namenode，da

2016-10-31 21:00:33 4467

原创大数据之hadoop[序列化与压缩]

Hadoop的序列化序列化：数据从内存中的到输出流，比如磁盘，网络，也就是说数据出内存的过程就是序列化的过程。反序列化：数据从输入流到内存缓冲区，比如从磁盘、网络，也就是说数据进入内存的过程就是发序列化的过程，和序列化互为逆过程。 Hadoop自定义序列化类的案例需求：是电信一段日志记录的表结构，现需要统计每一个手机号码的upPackNum、

2016-10-26 18:31:43 4271

Hibernate_基础汇总（一）

空空如也