2016年06月_铭霏

转载 PrefixSpan序列模式挖掘算法

介绍与GSP一样，PrefixSpan算法也是序列模式分析算法的一种，不过与前者不同的是PrefixSpan算法不产生任何的侯选集，在这点上可以说已经比GSP好很多了。PrefixSpan算法可以挖掘出满足阈值的所有序列模式，可以说是非常经典的算法。序列的格式就是上文中提到过的类似于这种的。算法原理PrefixSpan算法的原理是采用后缀序列转前缀序列的方式来构造频繁序列的。举

2016-06-26 18:44:48 1600

转载 Spark算子：RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

groupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]该函数用于将RDD[K,V

2016-06-26 13:05:06 5396

转载 Spark算子：RDD键值转换操作(2)–combineByKey、foldByKey

combineByKey def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] def combineByKey[C](createCombiner: (V) => C, mergeVal

2016-06-26 12:58:20 894

转载 Spark算子：RDD键值转换操作(1)–partitionBy、mapValues、flatMapValues

partitionBy def partitionBy(partitioner: Partitioner): RDD[(K, V)] 该函数根据partitioner函数生成新的ShuffleRDD，将原RDD重新分区。scala> var rdd1 = sc.makeRDD(Array((1,"A"),(2,"B"),(3,"C"),(4,"D")),2)r

2016-06-26 12:48:22 13247 2

转载 Spark算子：RDD基本转换操作(6)–zip、zipPartitions

zip def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)] zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。scala> var rdd1 = sc.makeRDD(1

2016-06-26 12:43:58 3007

转载序列化和反序列化(二)

本文转自：美团点评技术团队：http://tech.meituan.com/serialization_vs_deserialization.html#摘要序列化和反序列化几乎是工程师们每天都要面对的事情，但是要精确掌握这两个概念并不容易：一方面，它们往往作为框架的一部分出现而湮没在框架之中；另一方面，它们会以其他更容易理解的概念出现，例如加密、持久化。然而，序列化和反序列化的选型

2016-06-23 22:55:35 1477

转载机器学习中的数据清洗与特征处理综述

本文转自：美团点评技术团队：http://tech.meituan.com/mt-recommend-practice.html背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘，不仅能给美团业务发展方向提供决策支持，也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和

2016-06-23 22:38:55 1008

转载序列化与反序列化（一）

Java序列化与反序列化是什么？为什么需要序列化与反序列化？如何实现Java序列化与反序列化？本文围绕这些问题进行了探讨。 1.Java序列化与反序列化 Java序列化是指把Java对象转换为字节序列的过程；而Java反序列化是指把字节序列恢复为Java对象的过程。 2.为什么需要序列化与反序列化我们知道，当两个进程进行远程通信时，可以相互发送各种类型的数据，包括

2016-06-23 22:32:19 909

转载美团推荐算法实践

本文转自：美团点评技术团队：http://tech.meituan.com/mt-recommend-practice.html前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从

2016-06-23 21:44:07 744

转载主成分分析PCA详解（二）

我不生产自己不熟悉的内容，我只是陌生内容的搬运工！向原作致敬！转载自：http://blog.csdn.net/jzwong/article/details/45699097 作者：jzwong一、简介 PCA（Principal Components Analysis）即主成分分析，是图像处理中经常用到的降维方法，大家知道，我们在处理有关数字图像处理方面的问题时，比

2016-06-20 20:02:16 3799

转载主成分分析PCA详解(一)

降维的必要性1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定，从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间，而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。降维的目的：1.减

2016-06-20 17:55:13 9033 1

转载 hadoop2.x常用端口及定义方法

留着备忘。转载自：http://www.zhixing123.cn/ubuntu/40649.htmlPS：很感谢作者的整理。有时候端口太多了时间一久就忘了。Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询

2016-06-18 15:29:57 1143

转载 Apache Spark Jobs 性能调优（二）

在这篇文章中，首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面，你们将会了解到资源调优，或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度，这是job性能中最难也是最重要的参数。最后，你将了解到数据本身的表达形式，Spark 读取在磁盘的上的形式（主要是Apache Avro和 Apache Parquet)以及当数据需要

2016-06-17 16:08:02 1426

转载 Apache Spark Jobs 性能调优（一）

当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候，你会遇到各种各样术语，比如 transformation，action，RDD 等等。了解到这些是编写 Spark 代码的基础。同样，当你任务开始失败或者你需要透过web界面去了解自己的应用为何如此费时的时候，你需要去了解一些新的名词： job, stage, task。对于这些新术语的理解有助于编写良好 Spar

2016-06-17 15:59:24 1924

转载 Spark On YARN内存分配

原文地址： http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html 本文主要了解Spark On YARN部署模式下的内存分配情况，因为没有深入研究Spark的源代码，所以只能根据日志去看相关的源代码，从而了解“为什么会这样，为什么会那样”。说明按照Spark应用程

2016-06-15 23:40:58 3281

原创 Hadoop YARN配置参数剖析

今天重新调整yarn的参数时用到的，留一个备份以便以后修改时参考注意，配置这些参数前，应充分理解这几个参数的含义，以防止误配给集群带来的隐患。另外，这些参数均需要在yarn-site.xml中配置。　　1. ResourceManager相关配置参数　　（1） yarn.resourcemanager.address　　参数解释：ResourceManager 对客户端暴露的

2016-06-15 23:26:45 1411

转载 Spark性能优化：shuffle调优

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占

2016-06-11 19:38:42 27889 2

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪

2016-06-11 18:04:44 77428 17

原创 Apriori算法总结

Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系，也被称为购物蓝分析 (Market Basket analysis)，因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。Apriori（先验的，推测的

2016-06-11 15:13:42 17376 2

转载 sparkSQL1.1入门之九：sparkSQL之调优

spark是一个快速的内存计算框架；同时是一个并行运算的框架。在计算性能调优的时候，除了要考虑广为人知的木桶原理外，还要考虑平行运算的 Amdahl定理。木桶原理又称短板理论，其核心思想是：一只木桶盛水的多少，并不取决于桶壁上最高的那块木块，而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上，系统的最终性能取决于系统中性能表现最差的组件。例如，即使系统拥有充足的内存资源和CPU资

2016-06-09 23:03:30 2140

原创 SQL获取时间的方法总结

1. 当前系统日期、时间 select getdate() 2. dateadd 在向指定日期加上一段时间的基础上，返回新的 datetime 值例如：向日期加上2天 select dateadd(day,2,'2004-10-15') --返回：2004-10-17 00:00:00.000 3. datediff 返回跨两个指定日期的日期和时间边

2016-06-09 22:27:17 18562

转载『 Spark 』10. spark 应用程序性能优化｜12 个优化方法

原文：http://litaotao.github.io/boost-spark-application-performance本系列是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录，所以一切以能够理解为主，没有必要的细节就不会记录了，而且文中有时候会出现英文原

2016-06-01 16:51:45 2921

转载 Spark机器学习API之特征处理（二）

Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面：特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于

2016-06-01 16:03:55 4240

转载 Spark机器学习API之特征处理（一）

Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面：特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于

2016-06-01 16:00:24 5247

转载 Spark的性能调优(1)

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们会被分配到executor上面去执行。Stage指的是一组并行运行的ta

2016-06-01 15:55:15 2629

转载 Spark MLlib实现的中文文本分类–Naive Bayes

文本分类是指将一篇文章归到事先定义好的某一类或者某几类，在数据平台的一个典型的应用场景是，通过爬取用户浏览过的页面内容，识别出用户的浏览偏好，从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯（Naive Bayes）算法，完成对中文文本的分类过程。主要包括中文分词、文本表示（TF-IDF）、模型训练、分类预测等。中文分词对于中文文本分类而言，需要先对文章

2016-06-01 15:43:43 3079 2

转载 Spark性能优化：数据倾斜调优

本文转载自：http://tech.meituan.com/spark-tuning-basic.html (美团技术点评团队)前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能

2016-06-01 15:36:13 18128 2

转载 Spark的RDD原理以及2.0特性的介绍

注：本文由王联辉在高可用架构群分享，本文转载自高可用架构「 ArchNotes 」王联辉，曾在腾讯，Intel 等公司从事大数据相关的工作。2013 年 – 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop 发行版的 Hive 及 HBase 版本研发。参与过百度用户行为数据仓库的建设和开发，以及淘宝数据魔方和淘宝指数的数据开发工作

2016-06-01 15:34:06 2820

铭霏的记事本