2016年03月_笔尖的痕

10月 09月 08月 06月 05月 04月 03月 02月 01月

原创 spark与elasticsearch整合

org.scala-lang scala-library ${scala.version} compile org.scala-lang scala-compiler ${scala.version}

2016-03-26 02:27:35 8551 3

原创 jedis usage examples

import java.utilimport java.util.Dateimport demo.spark.streaming.utils.RedisClientimport org.junit.{After, Before, Test}import redis.clients.jedis.{Jedis, SortingParams}/** * Created by cao o

2016-03-25 22:42:16 443

转载 GC调优在Spark应用中的实践

摘要：Spark立足内存计算，常常需要在内存中存放大量数据，因此也更依赖JVM的垃圾回收机制。与此同时，它也兼容批处理和流式处理，对于程序吞吐量和延迟都有较高要求，因此GC参数的调优在Spark应用实践中显得尤为重要。Spark是时下非常热门的大数据计算框架，以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库，正在工业界获得越来越广泛的应用。与Hadoop、HBase生态

2016-03-24 17:59:29 443

转载 centos安装redis3.0.0集群

这里创建6个redis节点，其中三个为主节点，三个为从节点。redis和端口对应关系：127.0.0.1:7000127.0.0.1:7001127.0.0.1:7002从：127.0.0.1:7003127.0.0.1:7004127.0.0.1:7005步骤：1,下载redis。官网下载3.0.0版本，之前几的版本不支持集群模式下

2016-03-24 17:06:26 400

原创 prictice

http://www.tuicool.com/articles/QFvARfrhttp://blog.csdn.net/myproudcodelife/article/details/49589627

2016-03-22 00:30:07 858

转载 Install Ganglia on Ubuntu 14.04 Server (Trusty Tahr)

Sponsored LinkGanglia is a scalable distributed monitoring system for high-performance computing systems such as clusters and Grids. It is based on a hierarchical design targeted at federations of

2016-03-15 22:53:12 414

转载 Spark Executor Driver资源调度小结

一、引子在Worker Actor中，每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程，Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseGrainedExecutorBackend进程。那么到底是如何分配Execu

2016-03-14 17:04:33 3066

转载 Shuffle的性能调优

1.1.1 spark.shuffle.manager前文也多次提到过，Spark1.2.0官方支持两种方式的Shuffle，即Hash Based Shuffle和Sort Based Shuffle。其中在Spark 1.0之前仅支持Hash Based Shuffle。Spark 1.1的时候引入了Sort Based Shuffle。Spark 1.2的默认Shuffle机制从H

2016-03-14 15:37:43 1968

转载 Spark性能优化的10大问题及其解决方案

Spark性能优化的10大问题及其解决方案问题1：reduce task数目不合适解决方式：需根据实际情况调节默认配置，调整方式是修改参数spark.default.parallelism。通常，reduce数目设置为core数目的2到3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太少，任务运行缓慢。问题2：shuffle磁盘IO时间长解决方式：

2016-03-14 15:17:42 668

转载使用Ganglia监控Spark

在本博客的《Spark Metrics配置详解》文章中介绍了Spark Metrics的配置，其中我们就介绍了Spark监控支持Ganglia Sink。　　Ganglia是UC Berkeley发起的一个开源集群监视项目，主要是用来监控系统性能，如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资源，提高系统整体性能

2016-03-13 00:26:59 2863 1

转载 Spark Metrics配置详解

和Hadoop类似，在Spark中也存在很多的Metrics配置相关的参数，它是基于Coda Hale Metrics Library的可配置Metrics系统，我们可以通过配置文件进行配置，通过Spark的Metrics系统，我们可以把Spark Metrics的信息报告到各种各样的Sink，比如HTTP、JMX以及CSV文件。　　Spark的Metrics系统目前支持以下的实例：　

2016-03-13 00:26:18 3318 1

转载 Spark安装部署

集群概述本文章涉及spark安装部署，spark-sql,saprk-shell,streaming等等的应用demo…部署过程详解Spark布置环境中组件构成如下图所示。 Driver Program 简要来说在spark-shell中输入的wordcount语句对应于上图的Driver Program。Cluster Manager 就是对应于上面提到的mast

2016-03-13 00:25:19 2222

原创 DL

http://deeplearning4j.org/zh-index.htmlhttp://deeplearning4j.org/use_cases.htmlhttp://nd4j.org/gpu_native_backends.htmlhttp://deeplearning4j.org/spark.htmlhttp://deeplear

2016-03-11 17:55:47 438

转载 Spark的性能调优

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。Data Serialization，默认使用的是Java Serialization，这个程序员最熟悉，但是性能、空间表现都比较差。还有一个选项是Kryo Serialization，更快，压缩率也更高，但是并非支持任意类的序列化。Memory Tuning，Java对象会占用原始

2016-03-10 18:02:10 688

转载 Spark性能调优

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整，本文主要分享的也是这两方面内容。性能监控工具【Spark监控工具】Spark提供了一些基本的Web监控页面，对于日常监控十分有用。1. Application Web UIhttp://master:4040（默认端口是4040，可以通过spark.ui.port修改）可获得这些信息：（1）

2016-03-10 18:00:59 677

转载 Spark的39个机器学习库－英文

Apache Spark itself 1. MLlibAMPLab Spark originally came out of Berkeley AMPLab and even today AMPLab projects, even though they are not in Apache Spark Foundation, enjoy a status a bit

2016-03-10 17:49:55 688

转载 PageRank算法和HITS算法

链接分析在链接分析中有2个经典的算法，1个是PageRank算法，还有1个是HITS算法，说白了，都是做链接分析的。具体是怎么做呢，继续往下看。PageRank算法要说到PageRank算法的作用，得先从搜索引擎开始讲起，PageRank算法的由来正式与此相关。搜索引擎最早时期的搜索引擎的结构，无外乎2个核心步骤，step1:建立庞大的资料库，step2:建立索引库

2016-03-09 15:24:34 5824

转载 Apriori算法

一、Apriori算法简介： Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori（先验的，推测的）算法应用广泛，可用于消费市场价格分析，猜测顾客的消费习惯；网络安全领域中的入侵检测技术；可用在用于高校管理中，根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作；也可用在移动通信领域中，指导运营商的

2016-03-09 15:01:51 1006 1

转载 SVM算法

又有很长的一段时间没有更新博客了，距离上次更新已经有两个月的时间了。其中一个很大的原因是，不知道写什么好-_-，最近一段时间看了看关于SVM(Support Vector Machine)的文章，觉得SVM是一个非常有趣，而且自成一派的方向，所以今天准备写一篇关于关于SVM的文章。关于SVM的论文、书籍都非常的多，引用强哥的话“SVM是让应用数学家真正得到应用的一种算法”。SVM对于大部分

2016-03-09 14:24:31 407

转载数据挖掘算法之-关联规则挖掘(Association Rule)

一、关联规则的定义和属性考察一些涉及许多物品的事务：事务1 中出现了物品甲，事务2 中出现了物品乙，事务3 中则同时出现了物品甲和乙。那么，物品甲和乙在事务中的出现相互之间是否有规律可循呢？在数据库的知识发现中，关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说，关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。现

2016-03-07 17:54:03 5302

转载（EM算法）The EM Algorithm

EM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是

2016-03-07 16:27:07 476

转载主成分分析（Principal components analysis）-最小平方误差解释

接上篇3.2 最小平方误差理论假设有这样的二维样本点（红色点），回顾我们前面探讨的是求一条直线，使得样本点投影到直线上的点的方差最大。本质是求直线，那么度量直线求的好不好，不仅仅只有方差最大化的方法。再回想我们最开始学习的线性回归等，目的也是求一个线性函数使得直线能够最佳拟合样本点，那么我们能不能认为最佳的直线就是回归后的直线呢？回归时我们的最小二乘法度

2016-03-07 15:40:43 974

转载主成分分析（Principal components analysis）-最大方差解释

在这一篇之前的内容是《Factor Analysis》，由于非常理论，打算学完整个课程后再写。在写这篇之前，我阅读了PCA、SVD和LDA。这几个模型相近，却都有自己的特点。本篇打算先介绍PCA，至于他们之间的关系，只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题真实的训练数据总是存在各种各样的问题：1、比如拿到

2016-03-07 15:22:45 575

转载支持向量机（五）SMO算法

11 SMO优化算法（Sequential minimal optimization）SMO算法由Microsoft Research的John C. Platt在1998年提出，并成为最快的二次规划优化算法，特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for

2016-03-04 18:00:30 431

转载支持向量机（四）

9 规则化和不可分情况处理（Regularization and the non-separable case）我们之前讨论的情况都是建立在样例线性可分的假设上，当样例线性不可分时，我们可以尝试使用核函数来将特征映射到高维，这样很可能就可分了。然而，映射后我们也不能100%保证可分。那怎么办呢，我们需要将模型进行调整，以保证在不可分的情况下，也能够尽可能地找出分隔超平面。看下面两张

2016-03-04 14:28:39 362

转载支持向量机（三）核函数

7 核函数（Kernels）考虑我们最初在“线性回归”中提出的问题，特征是房子的面积x，这里的x是实数，结果y是房子的价格。假设我们从样本点的分布中看到x和y符合3次曲线，那么我们希望使用x的三次多项式来逼近这些样本点。那么首先需要将特征x扩展到三维，然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射（feature mapping）。映射函数称作，在这个例子中

2016-03-04 14:22:19 394

转载支持向量机SVM（二）

6 拉格朗日对偶（Lagrange duality）先抛开上面的二次规划问题，先来看看存在等式约束的极值问题求法，比如下面的最优化问题：目标函数是f(w)，下面是等式约束。通常解法是引入拉格朗日算子，这里使用来表示算子，得到拉格朗日公式为 L是等式约束的个数。然后分别对w和求偏导，使得偏

2016-03-04 13:58:47 340

转载支持向量机SVM（一）

【转载请注明出处】http://www.cnblogs.com/jerrylead1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候，老师要求交《统计学习理论》的报告，那时去网上下了一份入门教程，里面讲的很通俗，当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料，让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最小原

2016-03-04 13:23:49 402

转载 Spark MLlib FPGrowth算法

1.1 FPGrowth算法1.1.1 基本概念关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品（项）之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响，分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。关联规则的相关术语如下：（1）项与项集这是一个集合的概念，在一篮子商品中的一件消

2016-03-04 11:50:13 1047

转载主题模型-LDA浅析

上个月参加了在北京举办SIGKDD国际会议，在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型，感觉这个模型的应用挺广泛的，会后抽时间了解了一下LDA，做一下总结：（一）LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少

2016-03-04 11:06:48 639