自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

铭霏的记事本

日常记录或收集有意义/有意思/有想法的文章

  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

转载 PrefixSpan序列模式挖掘算法

介绍与GSP一样,PrefixSpan算法也是序列模式分析算法的一种,不过与前者不同的是PrefixSpan算法不产生任何的侯选集,在这点上可以说已经比GSP好很多了。PrefixSpan算法可以挖掘出满足阈值的所有序列模式,可以说是非常经典的算法。序列的格式就是上文中提到过的类似于这种的。算法原理PrefixSpan算法的原理是采用后缀序列转前缀序列的方式来构造频繁序列的。举

2016-06-26 18:44:48 1600

转载 Spark算子:RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

groupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]该函数用于将RDD[K,V

2016-06-26 13:05:06 5396

转载 Spark算子:RDD键值转换操作(2)–combineByKey、foldByKey

combineByKey       def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]       def combineByKey[C](createCombiner: (V) => C, mergeVal

2016-06-26 12:58:20 894

转载 Spark算子:RDD键值转换操作(1)–partitionBy、mapValues、flatMapValues

partitionBy      def partitionBy(partitioner: Partitioner): RDD[(K, V)]      该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区。scala> var rdd1 = sc.makeRDD(Array((1,"A"),(2,"B"),(3,"C"),(4,"D")),2)r

2016-06-26 12:48:22 13247 2

转载 Spark算子:RDD基本转换操作(6)–zip、zipPartitions

zip      def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]       zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同,否则会抛出异常。scala> var rdd1 = sc.makeRDD(1

2016-06-26 12:43:58 3007

转载 序列化和反序列化(二)

本文转自:美团点评技术团队:http://tech.meituan.com/serialization_vs_deserialization.html#摘要序列化和反序列化几乎是工程师们每天都要面对的事情,但是要精确掌握这两个概念并不容易:一方面,它们往往作为框架的一部分出现而湮没在框架之中;另一方面,它们会以其他更容易理解的概念出现,例如加密、持久化。然而,序列化和反序列化的选型

2016-06-23 22:55:35 1477

转载 机器学习中的数据清洗与特征处理综述

本文转自:美团点评技术团队:http://tech.meituan.com/mt-recommend-practice.html背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和

2016-06-23 22:38:55 1008

转载 序列化与反序列化(一)

Java序列化与反序列化是什么?为什么需要序列化与反序列化?如何实现Java序列化与反序列化?本文围绕这些问题进行了探讨。 1.Java序列化与反序列化 Java序列化是指把Java对象转换为字节序列的过程;而Java反序列化是指把字节序列恢复为Java对象的过程。 2.为什么需要序列化与反序列化 我们知道,当两个进程进行远程通信时,可以相互发送各种类型的数据,包括

2016-06-23 22:32:19 909

转载 美团推荐算法实践

本文转自:美团点评技术团队:http://tech.meituan.com/mt-recommend-practice.html前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从

2016-06-23 21:44:07 744

转载 主成分分析PCA详解(二)

我不生产自己不熟悉的内容,我只是陌生内容的搬运工!向原作致敬!转载自:http://blog.csdn.net/jzwong/article/details/45699097  作者:jzwong一、简介       PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法,大家知道,我们在处理有关数字图像处理方面的问题时,比

2016-06-20 20:02:16 3799

转载 主成分分析PCA详解(一)

降维的必要性1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。降维的目的:1.减

2016-06-20 17:55:13 9033 1

转载 hadoop2.x常用端口及定义方法

留着备忘。转载自:http://www.zhixing123.cn/ubuntu/40649.htmlPS:很感谢作者的整理。有时候端口太多了 时间一久就忘了。Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询

2016-06-18 15:29:57 1143

转载 Apache Spark Jobs 性能调优(二)

在这篇文章中,首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面,你们将会了解到资源调优,或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度,这是job性能中最难也是最重要的参数。最后,你将了解到数据本身的表达形式,Spark 读取在磁盘的上的形式(主要是Apache Avro和 Apache Parquet)以及当数据需要

2016-06-17 16:08:02 1426

转载 Apache Spark Jobs 性能调优(一)

当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候,你会遇到各种各样术语,比如 transformation,action,RDD 等等。 了解到这些是编写 Spark 代码的基础。 同样,当你任务开始失败或者你需要透过web界面去了解自己的应用为何如此费时的时候,你需要去了解一些新的名词: job, stage, task。对于这些新术语的理解有助于编写良好 Spar

2016-06-17 15:59:24 1924

转载 Spark On YARN内存分配

原文地址: http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html       本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那样”。说明      按照Spark应用程

2016-06-15 23:40:58 3281

原创 Hadoop YARN配置参数剖析

今天重新调整yarn的参数时用到的,留一个备份以便以后修改时参考注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。  1.    ResourceManager相关配置参数  (1) yarn.resourcemanager.address  参数解释:ResourceManager 对客户端暴露的

2016-06-15 23:26:45 1411

转载 Spark性能优化:shuffle调优

shuffle调优调优概述      大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占

2016-06-11 19:38:42 27889 2

转载 Spark性能优化:资源调优篇

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪

2016-06-11 18:04:44 77428 17

原创 Apriori算法总结

Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。Apriori(先验的,推测的

2016-06-11 15:13:42 17376 2

转载 sparkSQL1.1入门之九:sparkSQL之调优

spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑 平行运算的 Amdahl定理。木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和CPU资

2016-06-09 23:03:30 2140

原创 SQL获取时间的方法总结

1. 当前系统日期、时间 select getdate()  2. dateadd 在向指定日期加上一段时间的基础上,返回新的 datetime 值 例如:向日期加上2天 select dateadd(day,2,'2004-10-15') --返回:2004-10-17 00:00:00.000 3. datediff 返回跨两个指定日期的日期和时间边

2016-06-09 22:27:17 18562

转载 『 Spark 』10. spark 应用程序性能优化|12 个优化方法

原文:http://litaotao.github.io/boost-spark-application-performance本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原

2016-06-01 16:51:45 2921

转载 Spark机器学习API之特征处理(二)

Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于

2016-06-01 16:03:55 4240

转载 Spark机器学习API之特征处理(一)

Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于

2016-06-01 16:00:24 5247

转载 Spark的性能调优(1)

下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面 去执行。Stage指的是一组并行运行的ta

2016-06-01 15:55:15 2629

转载 Spark MLlib实现的中文文本分类–Naive Bayes

文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯(Naive Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。中文分词对于中文文本分类而言,需要先对文章

2016-06-01 15:43:43 3079 2

转载 Spark性能优化:数据倾斜调优

本文转载自:http://tech.meituan.com/spark-tuning-basic.html (美团技术点评团队)前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能

2016-06-01 15:36:13 18128 2

转载 Spark的RDD原理以及2.0特性的介绍

注:本文由王联辉在高可用架构群分享,本文转载自高可用架构「 ArchNotes 」王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作。2013 年 – 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop 发行版的 Hive 及 HBase 版本研发。参与过百度用户行为数据仓库的建设和开发,以及淘宝数据魔方和淘宝指数的数据开发工作

2016-06-01 15:34:06 2820

Pycharm5汉化补丁

Pycharm5 汉化补丁 将resources_cn.jar文件复制到 (PATH)\PyCharm 5\lib目录

2016-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除