XiaoGuang-Xu-CSDN博客

转载基于距离的计算方法

基于距离的计算方法原文： http://blog.sina.com.cn/s/blog_52510b1d01015nrg.html1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离：

2017-05-22 14:26:09 378

转载机器学习中各种距离计算

机器学习中各种距离计算原文： http://blog.csdn.net/qq_23617681/article/details/51471156机器学习中，经常需要计算各种距离。比如KNN近邻的距离，Kmeans距离，相似度中的距离计算。这种距离不一定都是欧氏距离，针对不同需求，数据的不同特点，距离的计算方式不同。下面给出机器学习中常用的距离计算方式，及其应用特点

2017-05-22 14:23:19 649

转载 spark的三种模式的详细运行过程

spark的三种模式的详细运行过程http://blog.csdn.net/do_what_you_can_do/article/details/53128480一、Standalone模式1、使用SparkSubmit提交任务的时候(包括Eclipse或者其它开发工具使用new SparkConf()来运行任务的时候)，Driver运行在Client；使用SparkS

2017-05-19 12:54:46 551

转载 Spark架构与作业执行流程简介

原文连接 http://xiguada.org/spark_architecture/Spark架构与作业执行流程简介Local模式运行Spark最简单的方法是通过Local模式（即伪分布式模式）。运行命令为：./bin/run-example org.apache.spark.examples.SparkPi local基于standalone的

2017-05-19 09:28:44 445

原创 MapReduce运行中遇到的问题

1：运行mapreduce任务任务过程中，出现下面现象,为啥？ TaskAttempt killed because it ran on unusable nodehadoopserver13:8041 Container released on a *lost* node YARN error: TaskAttempt killed because it ran on unusab

2017-05-17 10:26:26 2429

原创 CDH5.5启动Yarn的NodeManager报错

2017-04-12 22:27:46 1180

转载使用process_monitor.sh监控hadoop进程的crontab配置

使用process_monitor.sh监控hadoop进程的crontab配置可以从下列链接找到process_monitor.sh：https://github.com/eyjian/mooon/blob/master/common_library/shell/process_monitor.sh------------------------------------

2017-04-10 12:14:43 849 2

转载 Sparak-Streaming基于Offset消费Kafka数据

Sparak-Streaming基于Offset消费Kafka数据原文http://blog.csdn.net/kwu_ganymede/article/details/50930962Sparak-Streaming基于Offset消费Kafka数据1、官方提供消费kafka的数据实例[java] view plain copy

2017-03-29 15:16:47 752

转载 Spark streaming kafka OffsetOutOfRangeException 异常分析与解决

Spark streaming kafka OffsetOutOfRangeException 异常分析与解决原文地址：http://blog.csdn.net/xueba207/article/details/51174818自从把Spark 从1.3升级到1.6之后，kafka Streaming相关问题频出。最近又遇到了一个。 job中使用Kafka Di

2017-03-29 10:46:19 2000

转载 Spark Streaming 'numRecords must not be negative'问题解决

Spark Streaming 'numRecords must not be negative'问题解决原文： http://blog.csdn.net/xueba207/article/details/51135423问题描述笔者使用Spark streaming读取Kakfa中的数据，做进一步处理，用到了KafkaUtil的createDirectStre

2017-03-29 10:35:11 1222

转载 Kafka监控工具KafkaOffsetMonitor

Kafka监控工具KafkaOffsetMonitor原文： http://blog.csdn.net/panguoyuan/article/details/445672591.下载KafkaOffsetMonitor-assembly-0.2.0.jar 网盘地址：http://pan.baidu.com/s/1eQgYZOA 密码：rd5y2.在服务器上创建kaf

2017-03-29 09:45:41 1280

转载 Spark createDirectStream保存kafka offset(JAVA实现)

Spark createDirectStream保存kafka offset(JAVA实现)问题描述最近使用Spark streaming处理kafka的数据，业务数据量比较大，就使用了kafkaUtils的createDirectStream()方式，此方法直接从kafka的broker的分区中读取数据，跳过了zookeeper，并且没有receiver，是spa

2017-03-28 15:40:33 748

转载 Spark streaming kafka1.4.1中的低阶api createDirectStream使用总结(Scala实现)

Spark streaming kafka1.4.1中的低阶api createDirectStream使用总结原文：http://blog.csdn.net/ligt0610/article/details/47311771 由于目前每天需要从kafka中消费20亿条左右的消息，集群压力有点大，会导致job不同程度的异常退出。原来使用sp

2017-03-28 15:25:43 534

转载 Spark1.6 内存管理模型( Unified Memory Management)分析

Spark 1.6 内存管理模型( Unified Memory Management)分析原文： http://www.jianshu.com/p/b250797b452a2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型： Unified Memory Management。这篇文章会详细分析新的内存管理模型，方便大家做调优。前言新的内存模型是

2017-03-28 12:43:24 380

转载 Spark性能调优

Spark性能调优发表于2015-07-08 13:37| 26398次阅读| 来源程序员电子刊| 3 条评论| 作者程序员电子刊监控工具程序员Spark2015年3月A摘要：通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整，本文主要分享的也是这两方面内容。通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参

2017-03-28 11:45:36 667

转载 linux服务器查看CPU物理颗数.内核数.线程数查看

linux服务器查看CPU物理颗数.内核数.线程数查看公司服务器是分几批购买的，所以造成配置方面也不大相同特别是cpu配置方面，一直想弄清楚这些cpu都是什么型号，有几颗物理cpu，每颗cpu有几个核心，没个核心有几个线程。看起来很繁琐，下面一起彻底分分析下。大致的看了下公司服务器的型号，这个很容易获取使用命令more /proc/cpuinfo |grep "model name

2017-03-27 13:17:53 962

转载 Spark1.5堆内存分配

Spark1.5堆内存分配转载URL ： http://www.cnblogs.com/dreamfly2016/p/5720180.html这是spark1.5及以前堆内存分配图下边对上图进行更近一步的标注，红线开始到结尾就是这部分的开始到结尾spark 默认分配512MB JVM堆内存。出于安全考虑和避免内存溢出，Spark只

2017-03-27 12:56:48 668

转载 Spark On YARN内存分配

Spark On YARN内存分配原文地址： http://blog.javachen.com/2015/06/09/memory-in-Spark-on-yarn.html 本文主要了解Spark On YARN部署模式下的内存分配情况，因为没有深入研究Spark的源代码，所以只能根据日志去看相关的源代码，从而了解“为什么会这样，为什么会那

2017-03-27 11:08:08 1080

转载进程同步的几种机制

进程同步的几种机制原文：http://blog.csdn.net/wallwind/article/details/6895515多进程的系统中避免不了进程间的相互关系。本讲将介绍进程间的两种主要关系——同步与互斥，然后着重讲解解决进程同步的几种机制。进程互斥是进程之间发生的一种间接性作用，一般是程序不希望的。通常的情况是两个或两个以上的进程需要同时访问某个共

2017-03-25 11:36:52 503

转载 Spark Streaming 的玫瑰与刺

Spark Streaming 的玫瑰与刺玫瑰篇主要是说Spark Streaming的优势点，刺篇就是描述Spark Streaming 的一些问题，做选型前关注这些问题可以有效的降低使用风险。说人话：其实就是讲Spark Streaming 的好处与坑。作者：来源：博客虫|2016-01-28 10:11 移动端收藏分享

2017-03-24 23:15:28 382

转载 Spark On YARN内存分配

Spark On YARN内存分配时间 2015-06-09 00:00:00 JavaChen's Blog原文 http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html主题 Spark YARN本文主要了解Spark On YARN部署模式下的内存分配情况，因为没有深入研究Spa

2017-03-24 23:12:01 507

转载 Spark Streaming 数据清理机制

Spark Streaming 数据清理机制时间 2016-05-11 10:29:54 51CTO原文 http://developer.51cto.com/art/201605/511024.htm主题 Spark StreamingSpark Streaming 数据清理机制大家刚开始用Spark Streaming时，心里肯定嘀咕，对

2017-03-24 23:09:50 650

转载 Spark性能优化：资源调优篇

Spark性能优化：资源调优篇在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资

2017-03-24 13:22:57 271

转载 spark性能优化：数据倾斜调优

spark性能优化：数据倾斜调优原文：http://blog.csdn.net/lw_ghy/article/details/51419877调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

2017-03-23 15:31:00 336

转载 Spark Streaming 实现思路与模块概述

Spark Streaming 实现思路与模块概述[酷玩 Spark] Spark Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围：2016.01.04 update, Spark 1.6 全系列 √ (1.6.0)2015.11.09 update, Spark 1.5 全系列 √ (1.5.0,

2017-03-23 13:13:21 674

转载 Java堆内存的划分

根据对象的存活率（年龄），Java对内存划分为3种：新生代、老年代、永久代1、新生代：比如我们在方法中去new一个对象，那这方法调用完毕后，对象就会被回收，这就是一个典型的新生代对象。现在的商业虚拟机都采用这种收集算法来回收新生代，新生代中的对象98%都是“朝生夕死”的，所以并不需要按照1:1的比例来划分内存空间，而是将内存分为一块比较大的Eden空间和两块较小的Surviv

2017-03-23 09:13:18 321

转载 Spark性能优化：JVM参数调优

Spark性能优化：JVM参数调优原文： http://blog.csdn.net/kwu_ganymede/article/details/51299115#comments关于JVM垃圾回收种类Minor GC从年轻代空间（包括 Eden 和 Survivor 区域）回收内存被称为 Minor GC。这一定义既清晰又易于理解。但是，当发生Minor GC事件的时候，

2017-03-23 09:02:47 527

转载大数据实时处理实战

作者：武智晖，北京移动网络运行维护中心大数据系统架构师，北京邮电大学软件工程硕士，高级工程师。多年从事系统架构设计，软件开发，运营商大数据分析挖掘工作。随着互联网时代的发展，运营商作为内容传送的管道服务商，在数据领域具有巨大的优势，如何将这些数据转化为价值，越来越被运营商所重视。运营商的大数据具有体量大，种类多的特点，如各类话单、信令等，通常一种话单每天的数据量就有上百亿条。随

2017-03-22 21:36:18 786

转载在Spark集群中，集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系？？

在Spark集群中，集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系？？作者：王燚光链接：https://www.zhihu.com/question/33270495/answer/93424104来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。梳理一下Spark中关于并发度涉及的几个概念File，Block，Spl

2017-03-22 15:09:53 1917

转载 Spark Streaming：性能调优

Spark Streaming：性能调优原文网址： http://blog.csdn.net/kwu_ganymede/article/details/50577920数据接收并行度调优（一）通过网络接收数据时（比如Kafka、Flume），会将数据反序列化，并存储在Spark的内存中。如果数据接收称为系统的瓶颈，那么可以考虑并行化数据接收。每一个输入DSt

2017-03-22 14:33:58 335

转载 spark学习13之RDD的partitions数目获取

spark学习13之RDD的partitions数目获取原文网址： http://blog.csdn.net/xubo245/article/details/51475506spark1.5.21解释获取RDD的partitions数目和index信息疑问：为什么纯文本的partitions数目与HDFS的block数目一样，但是.gz的压缩文件的par

2017-03-18 16:41:35 899

转载用Eclipse 开发play

原文： http://blog.csdn.net/u013372441/article/details/47100843前提是已经把play导入到eclipse里面去了,没有请看这:http://blog.csdn.NET/u013372441/article/details/47100129然后在工程的目录下建立这么几个文件如下图所示直接代码App

2017-03-17 11:18:57 402

转载 Play! Framework 学习笔记（一）：初识Play

目标一：学习官网Getting Started和Run Demo @学弟学妹醒目，要了解一个框架，第一件事就是运行最简单的例子“HELLO WORLD”，（喂！喂！学长，你不会以为我们是白痴吧。。。#_#）。别怀疑，其实往往跑最简单的例子能更加迅速的了解框架的大致工作原理，这里也说一下的是，在学校的学习时，我们大多习惯于，想学一门技术时，先去图书馆找一本厚厚的教材，书名字中经常会

2017-03-17 09:16:18 623

转载什么是函数式编程

什么是函数式编程门java8出来后，特意了解它的新特性lambda表达式，由此头一次听说了函数式编程这个词，听起来挺高深的样子。也曾各种搜索去了解它的来龙去脉。甚至买了一本书《函数式编程思想》，并在部门内进行了一次讨论。此时，首先需要回答的问题便是函数式编程：那是什么东西？为此，我逛过百度，各种博客，知乎，github，但没有看到一个直接的答案，大多是列举函数式编程的特

2017-03-16 17:19:45 342

转载 Hadoop YARN常见问题以及解决方案

2017-03-16 11:41:19 613

转载 Linux查看CPU信息[//proc/loadavg]

工作原理：基于/proc 文件系统Linux 系统为管理员提供了非常好的方法，使其可以在系统运行时更改内核，而不需要重新引导内核系统，这是通过/proc 虚拟文件系统实现的。/proc 文件虚拟系统是一种内核和内核模块用来向进程（process）发送信息的机制（所以叫做“/proc”），这个伪文件系统允许与内核内部数据结构交互，获取有关进程的有用信息，在运行中（on the fly

2017-03-16 10:50:28 562

转载 linux查看CPU性能及工作状态的指令mpstat，vmstat，iostat，sar，top

linux查看CPU性能及工作状态的指令mpstat，vmstat，iostat，sar，top衡量CPU性能的指标：1，用户使用CPU的情况；CPU运行常规用户进程CPU运行niced processCPU运行实时进程2，系统使用CPU情况；用于I/O管理：中断和驱动用于内存管理：页面交换用户进程管理：进程开始和上下文切换3

2017-03-16 10:01:44 575

转载 Linux-Centos7----安装Python的psutil模块插件

原文URL： http://www.cnblogs.com/chentq/p/4954135.htmlLinux-Centos7----安装Python的psutil模块插件# wget https://pypi.python.org/packages/source/p/psutil/psutil-2.1.3.tar.gz# tar zxvf psutil-

2017-03-16 09:47:57 1634

转载 Python功能模块之psutil------ Linux性能（CPU、磁盘、内存、网卡）监控

原文URL： http://blog.csdn.net/zhouzhiwengang/article/details/44779521采集系统的基本性能信息包括CPU、内存、磁盘、网络等，可以完整描述当前系统的运行状态及质量。psutil模块已经封装了这些方法，用户可以根据自身的应用场景，调用相应的方法来满足需求，非常简单实用。（1）CPU信息Linux操作系统的CPU

2017-03-16 09:44:03 457

转载 linux /proc/loadavg(平均负载)

from : http://hi.baidu.com/mengyun8/blog/item/bd424531451b98e71a4cffc0.html一、什么是系统平均负载(Load average)？在Linux系统中，uptime、w、top等命令都会有系统平均负载load average的输出，那么什么是系统平均负载呢？系统平均负载被定义为在特定时间间隔内运行队列中的平均进程数。

2017-03-16 09:37:53 601

Struts2 + Spring + ibatis

SSH整合分页Demo入门

ajax源代码

EXt 学习API

java面试题

java设计模式(第二版)

空空如也