购买意向建模-数据清洗

背景: 需要根据用户的问卷提炼特征,进行建模预测用户的购买意向。但是实际情况是一部分是历史数据嘈乱、而且问卷形式的收集数据,部分用户填写随意不具备参考意义。 # -*- coding: utf-8 -*- """ """ #1.数据预处...

2019-04-27 14:15:46

阅读数 26

评论数 0

OOZIE 4.1 中的 Java动态代理 递归 应用

java动态代理介绍:http://liugang594.iteye.com/blog/2039934/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license a...

2017-12-01 15:22:20

阅读数 237

评论数 0

Dubbo与Zookeeper、SpringMVC整合和使用(负载均衡、容错)

互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,Dubbo是一个分布式服务框架,在这种情况下诞生的。现在核心业务抽取出来,作为独立的服务,使前端应用能更快速和稳定的响应。第一:介绍Dubbo背景大规模服务化之前,应用可能只是通过RMI或H...

2017-09-29 18:55:19

阅读数 4015

评论数 0

kettle 7.1 集成 HDP2.6 写入HDFS 报错问题

不仅HDP2.6存在问题, 在与Apache Hadoop 2.6.4集成过程中也出现同样的问题。2017/06/30 12:18:18 - 生成随机数.1 - 完成处理 (I=0, O=0, R=1, W=1, U=0, E=0) 2017/06/30 12:18:18 - 生成随机数.2 ...

2017-06-30 15:26:00

阅读数 8193

评论数 4

[翻译]Kafka Streams简介: 让流处理变得更简单

看到一篇不错的译文,再推送一拨转发自:http://www.cnblogs.com/devos/p/5616086.htmlIntroducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafk...

2017-06-23 17:29:26

阅读数 4586

评论数 0

Spark SQL 函数操作

Spark 内置函数 使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果是返回一个Column对象,而DataFrame天生就是”A distributed collection of data organized i...

2016-12-11 13:04:50

阅读数 16418

评论数 0

Spark SQL 集成ElasticSearch的案例实战

Spark SQL 集成ElasticSearch的案例实战ElasticSearch 概念回顾 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apa...

2016-12-10 23:05:01

阅读数 8781

评论数 2

Spark SQL Hive数据源复杂综合案例实战

Spark SQL Hive数据源复杂综合案例实战(读写各种分区表)Hive数据源来源 Spark SQL除了支持SQLContext之外,还支持HIVESQL语法,利用HIVEContext来创建,HiveContext继承自SQLContext,但是增加了在Hive表中数据库中查找,同时也支持...

2016-12-10 23:03:52

阅读数 5738

评论数 0

Spark性能优化:数据倾斜调优

Spark性能优化:数据倾斜调优前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 1....

2016-12-08 14:24:10

阅读数 4353

评论数 0

Spark性能优化:资源调优篇

Spark性能优化:资源调优篇 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的...

2016-12-07 14:12:15

阅读数 4010

评论数 0

Spark性能优化:开发调优篇

Spark性能优化:开发调优篇1、前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项...

2016-12-07 12:33:32

阅读数 5768

评论数 0

Spark 开发调优(一)

Spark性能优化 - 开发调优优化一 避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,...

2016-12-07 10:36:28

阅读数 6425

评论数 2

spark internal - 作业调度

spark internal - 作业调度让我们看看在架构师的眼里,作业调度是一种怎样的形态 作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 在Spark中作业...

2016-12-04 14:24:59

阅读数 4112

评论数 0

Spark弹性分布式数据集RDD详解

【Spark】弹性分布式数据集RDD概述弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够...

2016-12-03 13:01:06

阅读数 8513

评论数 0

DAGScheduler源码解析(一)

Spark 源码理解 DAGSchedulerDAGScheduler是Spark中比较重要的一部分,它属于高级调度,主要实现stage的划分,接着生成整个DAG图,以及如何为每个stage 生成任务集,并且将任务提交给TaskScheduler,基于这两点,我们对DAGScheduler的源码展...

2016-12-02 09:37:41

阅读数 4760

评论数 0

DAGScheduler 和 TaskScheduler 的关系

DAGScheduler 和 TaskScheduler的联系让我们看看这个图, 1.[Applicatio 1] Driver(代表一个Application) 2. [Job ==>1] 在SparkContext的创建过程中,sc会创建DAGScheduler和TaskSchedu...

2016-12-01 19:27:35

阅读数 4751

评论数 0

Spark Worker内部工作原理

Worker Worker是一个基于AKKA Actor 的Actor模型,和Master,Driver,进行通信的时候 都是通过在receiver方法中进行样例类的时间匹配,支持Worker同时实现了ActorLogReceive的trait,ActorLogReceive里面复写recei...

2016-12-01 14:22:48

阅读数 5670

评论数 0

SparkConext的构建过程

SparkContext 的构建的过程SparkContext的初始化综述 SparkContext是进行Spark应用开发的主要接口,是Spark上层应用与底层应用实现的中转站,即整个应用的上下文,控制应用的生命周期。 SparkContext在初始化的过程中,主要涉及以下内容SparkEnv:...

2016-12-01 00:03:39

阅读数 4324

评论数 0

Spark on Yarn

Spark ON Yarn深度剖析 我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系? Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责...

2016-11-29 22:58:54

阅读数 4622

评论数 0

Spark RDD 依赖关系

Spark RDD的依赖关系 RDD之间的依赖关系分为两种,分别是NarrowDependency与ShuffleDependency,其中ShuffleDependency为子RDD的每个Partition都依赖于父RDD的所有Partition,而NarrowDependency则只依赖一个或...

2016-11-29 19:23:22

阅读数 4856

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭