2016年03月_Xeon-Shao

转载如何更改linux文件的拥有者及用户组(chown和chgrp)

本文整理自： http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/http://ydlmlh.iteye.com/blog/1435157一、基本知识在Linux中，创建一个文件时，该文件的拥有者都是创建该文件的用户。该文件用户可以修改该文件的拥有者及用户组，当然root用

2016-03-31 14:48:25 842

转载 Spark排错与优化

一. 运维1. Master挂掉,standby重启也失效Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是master会读取每个task的event log日志去生成spark ui，内存不足自然会OOM，可以在master的运行日志中看到，通过HA启动的master自然也会因为这个原因失败。解决增加Master的内存占用，在Mas

2016-03-30 19:32:34 1347

转载【Spark】Spark应用执行机制

Spark应用概念Spark应用（Application）是用户提交的应用程序。执行模式又Local、Standalone、YARN、Mesos。根据Spark Application的Driver Program是否在集群中运行，Spark应用的运行方式又可以分为Cluster模式和Client模式。下面是Spark应用涉及的一些基本概念：Application：Spark

2016-03-26 21:22:48 801

转载【Spark】Spark基本概念

Spark专用名词RDD —- resillient distributed dataset 弹性分布式数据集Operation —- 作用于RDD的各种操作分为transformation和actionJob —- 作业，一个JOB包含多个RDD及作用于相应RDD上的各种operationStage —- 一个作业分为多个阶段Partition —- 数据分区，一个RDD中的数据可以分

2016-03-26 21:19:20 493

转载 spark-OutOfMemory:GC overhead limit exceeded 解决，timelimitexceeded

今天准备跑自己的spark程序，但是运行过程中遇到了OutOfMemory:GC overhead limit exceeded的错误。原以为是数据集太大，google了一番，以为是内存不够了，但是在webui一看其实数据集好像也不是很大，但是还是尝试提高了内存配置，通过提高spark.executor.memory和spark.shuffle.memoryFraction，降低spark

2016-03-26 21:13:36 5514

转载 Spark 性能相关参数配置详解－任务调度篇

作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。

2016-03-25 21:19:56 473

转载 Spark 性能相关参数配置详解－压缩与序列化篇

作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。

2016-03-25 21:09:42 538

转载 Spark 性能相关参数配置详解－Storage篇

作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。

2016-03-25 21:05:08 510

转载 Spark 性能相关参数配置详解－shuffle篇

作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configurat

2016-03-25 20:52:15 546 1

转载马克

http://www.cnblogs.com/hseagle/p/3664933.html先马

2016-03-24 09:45:49 509

转载 Shufflling and repartitioning of RDD’s in apache spark

To write the optimize spark application you should carefully use transformation and actions, if you use wrong transformation and action will make your application slow. So when you are writing applic

2016-03-23 08:54:59 682

转载说说高斯过程回归

作者介绍：新浪微博ID @妖僧老冯， 9月将赴南京大学（直博生），方向是机器学习与数据挖掘文章出处：我爱计算机编者：小便和作者打过几次交道，一直以为是他是已“修成正果”的某某博士，便“毕恭毕敬”地去邀请他写篇牛文。细聊之后才得知小伙子原来是90后，9月份才博士入学。这篇文章对GP进行了深度科普，数学公式是有一些的，但耐心读读，都不是问题的。高斯过程是机器学习领域一个基础的方法，同时又和

2016-03-21 21:40:22 3119

转载 Performance Tuning Tips for Running Spark Applications（重点：数据序列化）

Based on what I have read and experimented so far, I have provided some key factors that can impact the performance of Apache Spark applications, specifically spark streaming. Concurrency and memory

2016-03-21 14:30:19 755

转载 Spark之性能优化（重点：并行流数据接收）

问题导读1、如何减少批数据的执行时间？2、Spark有哪些方面的性能优化？3、有哪些错误我们需要关心？（一）减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。数据接收的并行水平通过网络(如kafka，flume，socket等)接收数据需要这些数据反序列化并被保存到

2016-03-21 09:41:59 6883

转载 Spark vs. MapReduce 时间节约66%，计算节约40%

本文转自http://www.csdn.net/article/2014-11-04/2822474，所有权力归原作者所有。虽然本文并没有讲什么实质的东西，但是可以拿来吹牛逼呀~ ⁽⁽ଘ( ˊᵕˋ )ଓ⁾⁾*摘要：本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比，相比于MapReduce，TDW Spark执行时间减少了66%，计算成本降低了

2016-03-20 20:46:23 612

转载协方差的意义和计算公式

本文转自http://blog.csdn.net/goodshot/article/details/8611178，所有权利归原作者所有。本文写的还是蛮清楚的，能让人比较清楚的明白什么是协方差，但是文章评论有人指出文章中存在错误，例如“相互独立一定不相关，不相关不一定独立”，具体看原文评论。协方差的意义和计算公式学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方

2016-03-17 22:09:26 2414

转载在windows7系统中显示和隐藏系统保留盘

在windows7系统中显示和隐藏系统保留盘工具/原料安装有windows7系统的电脑步骤/方法右键“我的电脑”，打开“管理”；单击“磁盘管理”

2016-03-17 09:45:36 2175

原创 Windows10和Ubuntu双系统下用windows引导Ubuntu

本教程的实测环境为windows10企业版和Ubuntu14.04.4LTS1.先启动系统进入windows，下载EasyBCD，安装后，在“BCD备份/修复”中的BCD管理选项中选择重新创建/修复引导文件，然后点击“执行动作”2.然后到“添加新条目项”中选择Linux/BSD选项卡，选择“grub 2”引导方式，名称随意，如“Ubuntu”，驱动器选择安装Ubuntu时的/boo

2016-03-16 20:22:20 14147 1

转载决策树之CART算法

本文转自http://blog.csdn.net/acdreamers/article/details/44664481，所有权力归原作者所有。在之前介绍过决策树的ID3算法实现，今天主要来介绍决策树的另一种实现，即CART算法。 Contents 1. CART算法的认识 2. CART算法的原理 3. CART算法的实现

2016-03-16 19:43:17 1199

转载 spark java api通过run as java application运行的方法

先上代码：[python] view plain copy /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed w

2016-03-16 14:57:04 793

转载 Spark History Server配置及其启动

Spark history Server产生背景以standalone运行模式为例，在运行Spark Application的时候，Spark会提供一个WEBUI列出应用程序的运行时信息；但该WEBUI随着Application的完成(成功/失败)而关闭，也就是说，Spark Application运行完(成功/失败)后，将无法查看Application的历史记录；Spark hi

2016-03-16 09:53:16 7739 1

转载 Ubuntu14.04下安装Chrome出现“未安装软件包 libappindicator1”问题的解决办法

在使用本博客的Ubuntu安装Chrome的方法中的第一个方法安装Chrome时，遇到了“未安装软件包 libappindicator1”的问题。贴吧有人提供的解决方法如下：1. 强制安装chromesudo dpkg -i google-chrome-stable_current_i386.deb --force2. 补齐依赖 sudo apt-get i

2016-03-13 21:55:51 14840 1

转载 Ubuntu下安装Chrome浏览器的两个方法

一、通过直接下载安装Google Chrome浏览器deb包。打开Ubuntu终端，以下为32位版本，使用下面的命令。wget https://dl.google.com/linux/direct/google-chrome-stable_current_i386.deb以下为64位版本，使用下面的命令。wget https://dl.google.com/linux/dire

2016-03-13 21:51:37 74596 1

转载 Ubuntu下Chrome浏览器不能以根用户身份运行的解决方法

Google Chrome浏览器不能以根用户身份运行解决解决方案一: 找到google-chrome 的快捷方式右击查看属性找到命令即得到google-chrome 的地址。如：/usr/bin/google-chrome 打开终端. 输入命令：/usr/bin/google-chrome %U -user-data-dir OK 即可以

2016-03-13 21:49:08 2633

转载如何查看hadoop是32位还是64位

问题导读：1.从哪些地方可以识别hadoop是32位还是64位？2.hadoop本地库在什么位置？hadoop在安装的时候，我们需要知道hadoop版本是32位还是64位。hadoop官网本来提供的都是32位，因为我们大部分都是64位，所以不得不编译。后来官网从hadoop2.5版本开始就提供了64位。为了防止我们用错，下面我们来实际操作和观察。

2016-03-11 15:00:54 1353

转载 Flume 1.6.0 User Guide

Flume 1.6.0 User GuideIntroductionOverviewApache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data f

2016-03-08 17:01:28 1597

转载 UML系列图--用例图

UML-Unified Model Language 统一建模语言，又称标准建模语言。是用来对软件密集系统进行可视化建模的一种语言。在UML系统开发中有三个主要的模型：　　功能模型: 从用户的角度展示系统的功能，包括用例图。　　对象模型: 采用对象，属性，操作，关联等概念展示系统的结构和基础，包括类图、对象图、包图。　　动态模型: 展现系统的内部行为。包括序列图，

2016-03-06 10:52:03 533

转载什么是凸函数

1.定义对于函数f(x)，如果其定义域domf是凸的，且对于∀x,y∈domf，0≤θ≤1，有 f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)则，f(x)是凸函数。例：仿射函数：ax+b 指数函数：eax 幂函数：xα(其中，x∈R++, α>1 或α0) 绝对值幂函数：|x|p, p≥1 其他：xlogx, x∈R++

2016-03-04 14:19:29 2896

转载 YARN的内存和CPU配置

Hadoop YARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位，具有一定的内存以及CPU资源。在YARN集群中，平衡内存、CPU、磁盘的资源的很重要的，根据

2016-03-02 16:06:46 884

sdujava2011

转载如何更改linux文件的拥有者及用户组(chown和chgrp)

转载 Spark排错与优化

转载【Spark】Spark应用执行机制

转载【Spark】Spark基本概念

转载 spark-OutOfMemory:GC overhead limit exceeded 解决，timelimitexceeded

转载 Spark 性能相关参数配置详解－任务调度篇

转载 Spark 性能相关参数配置详解－压缩与序列化篇

转载 Spark 性能相关参数配置详解－Storage篇

转载 Spark 性能相关参数配置详解－shuffle篇

转载马克

转载 Shufflling and repartitioning of RDD’s in apache spark

转载说说高斯过程回归

转载 Performance Tuning Tips for Running Spark Applications（重点：数据序列化）

转载 Spark之性能优化（重点：并行流数据接收）

转载 Spark vs. MapReduce 时间节约66%，计算节约40%

转载协方差的意义和计算公式

转载在windows7系统中显示和隐藏系统保留盘

原创 Windows10和Ubuntu双系统下用windows引导Ubuntu

转载决策树之CART算法

转载 spark java api通过run as java application运行的方法

转载 Spark History Server配置及其启动

转载 Ubuntu14.04下安装Chrome出现“未安装软件包 libappindicator1”问题的解决办法

转载 Ubuntu下安装Chrome浏览器的两个方法

转载 Ubuntu下Chrome浏览器不能以根用户身份运行的解决方法

转载如何查看hadoop是32位还是64位

转载 Flume 1.6.0 User Guide

转载 UML系列图--用例图

转载什么是凸函数

转载 YARN的内存和CPU配置

PHP pgsql驱动文件

feralpacket.ini.txt

idea-plugin.zip

RESTfull Web Service中文版

在使用Spark Streaming向HDFS中保存数据时，文件内容会被覆盖掉，怎么解决？

对Spark RDD中的数据进行处理