- 博客(707)
- 资源 (6)
- 收藏
- 关注
转载 基于距离的计算方法
基于距离的计算方法原文: http://blog.sina.com.cn/s/blog_52510b1d01015nrg.html1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:
2017-05-22 14:26:09 378
转载 机器学习中各种距离计算
机器学习中各种距离计算原文: http://blog.csdn.net/qq_23617681/article/details/51471156机器学习中,经常需要计算各种距离。 比如KNN近邻的距离,Kmeans距离,相似度中的距离计算。 这种距离不一定都是欧氏距离,针对不同需求,数据的不同特点,距离的计算方式不同。 下面给出机器学习中常用的距离计算方式,及其应用特点
2017-05-22 14:23:19 649
转载 spark的三种模式的详细运行过程
spark的三种模式的详细运行过程http://blog.csdn.net/do_what_you_can_do/article/details/53128480一、Standalone模式1、使用SparkSubmit提交任务的时候(包括Eclipse或者其它开发工具使用new SparkConf()来运行任务的时候),Driver运行在Client;使用SparkS
2017-05-19 12:54:46 551
转载 Spark架构与作业执行流程简介
原文连接 http://xiguada.org/spark_architecture/Spark架构与作业执行流程简介Local模式运行Spark最简单的方法是通过Local模式(即伪分布式模式)。 运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local基于standalone的
2017-05-19 09:28:44 445
原创 MapReduce运行中遇到的问题
1:运行mapreduce任务任务过程中,出现下面现象,为啥? TaskAttempt killed because it ran on unusable nodehadoopserver13:8041 Container released on a *lost* node YARN error: TaskAttempt killed because it ran on unusab
2017-05-17 10:26:26 2429
转载 使用process_monitor.sh监控hadoop进程的crontab配置
使用process_monitor.sh监控hadoop进程的crontab配置 可以从下列链接找到process_monitor.sh:https://github.com/eyjian/mooon/blob/master/common_library/shell/process_monitor.sh------------------------------------
2017-04-10 12:14:43 849 2
转载 Sparak-Streaming基于Offset消费Kafka数据
Sparak-Streaming基于Offset消费Kafka数据原文http://blog.csdn.net/kwu_ganymede/article/details/50930962Sparak-Streaming基于Offset消费Kafka数据1、官方提供消费kafka的数据实例[java] view plain copy
2017-03-29 15:16:47 752
转载 Spark streaming kafka OffsetOutOfRangeException 异常分析与解决
Spark streaming kafka OffsetOutOfRangeException 异常分析与解决原文地址:http://blog.csdn.net/xueba207/article/details/51174818自从把Spark 从1.3升级到1.6之后,kafka Streaming相关问题频出。最近又遇到了一个。 job中使用Kafka Di
2017-03-29 10:46:19 2000
转载 Spark Streaming 'numRecords must not be negative'问题解决
Spark Streaming 'numRecords must not be negative'问题解决原文: http://blog.csdn.net/xueba207/article/details/51135423问题描述笔者使用Spark streaming读取Kakfa中的数据,做进一步处理,用到了KafkaUtil的createDirectStre
2017-03-29 10:35:11 1222
转载 Kafka监控工具KafkaOffsetMonitor
Kafka监控工具KafkaOffsetMonitor原文: http://blog.csdn.net/panguoyuan/article/details/445672591.下载KafkaOffsetMonitor-assembly-0.2.0.jar 网盘地址:http://pan.baidu.com/s/1eQgYZOA 密码:rd5y2.在服务器上创建kaf
2017-03-29 09:45:41 1280
转载 Spark createDirectStream保存kafka offset(JAVA实现)
Spark createDirectStream保存kafka offset(JAVA实现)问题描述最近使用Spark streaming处理kafka的数据,业务数据量比较大,就使用了kafkaUtils的createDirectStream()方式,此方法直接从kafka的broker的分区中读取数据,跳过了zookeeper,并且没有receiver,是spa
2017-03-28 15:40:33 748
转载 Spark streaming kafka1.4.1中的低阶api createDirectStream使用总结(Scala实现)
Spark streaming kafka1.4.1中的低阶api createDirectStream使用总结原文:http://blog.csdn.net/ligt0610/article/details/47311771 由于目前每天需要从kafka中消费20亿条左右的消息,集群压力有点大,会导致job不同程度的异常退出。原来使用sp
2017-03-28 15:25:43 534
转载 Spark1.6 内存管理模型( Unified Memory Management)分析
Spark 1.6 内存管理模型( Unified Memory Management)分析原文: http://www.jianshu.com/p/b250797b452a2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型: Unified Memory Management。这篇文章会详细分析新的内存管理模型,方便大家做调优。前言新的内存模型是
2017-03-28 12:43:24 380
转载 Spark性能调优
Spark性能调优发表于2015-07-08 13:37| 26398次阅读| 来源程序员电子刊| 3 条评论| 作者程序员电子刊监控工具程序员Spark2015年3月A摘要:通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参
2017-03-28 11:45:36 667
转载 linux服务器查看CPU物理颗数.内核数.线程数查看
linux服务器查看CPU物理颗数.内核数.线程数查看公司服务器是分几批购买的,所以造成配置方面也不大相同特别是cpu配置方面,一直想弄清楚这些cpu都是什么型号,有几颗物理cpu,每颗cpu有几个核心,没个核心有几个线程。看起来很繁琐,下面一起彻底分分析下。大致的看了下公司服务器的型号,这个很容易获取使用命令more /proc/cpuinfo |grep "model name
2017-03-27 13:17:53 962
转载 Spark1.5堆内存分配
Spark1.5堆内存分配转载URL : http://www.cnblogs.com/dreamfly2016/p/5720180.html这是spark1.5及以前堆内存分配图下边对上图进行更近一步的标注,红线开始到结尾就是这部分的开始到结尾spark 默认分配512MB JVM堆内存。出于安全考虑和避免内存溢出,Spark只
2017-03-27 12:56:48 668
转载 Spark On YARN内存分配
Spark On YARN内存分配原文地址: http://blog.javachen.com/2015/06/09/memory-in-Spark-on-yarn.html 本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那
2017-03-27 11:08:08 1080
转载 进程同步的几种机制
进程同步的几种机制原文:http://blog.csdn.net/wallwind/article/details/6895515多进程的系统中避免不了进程间的相互关系。本讲将介绍进程间的两种主要关系——同步与互斥,然后着重讲解解决进程同步的几种机制。 进程互斥是进程之间发生的一种间接性作用,一般是程序不希望的。通常的情况是两个或两个以上的进程需要同时访问某个共
2017-03-25 11:36:52 503
转载 Spark Streaming 的玫瑰与刺
Spark Streaming 的玫瑰与刺玫瑰篇主要是说Spark Streaming的优势点,刺篇就是描述Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。说人话:其实就是讲Spark Streaming 的好处与坑。作者:来源:博客虫|2016-01-28 10:11 移动端 收藏 分享
2017-03-24 23:15:28 382
转载 Spark On YARN内存分配
Spark On YARN内存分配时间 2015-06-09 00:00:00 JavaChen's Blog原文 http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html主题 Spark YARN本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spa
2017-03-24 23:12:01 507
转载 Spark Streaming 数据清理机制
Spark Streaming 数据清理机制时间 2016-05-11 10:29:54 51CTO原文 http://developer.51cto.com/art/201605/511024.htm主题 Spark StreamingSpark Streaming 数据清理机制大家刚开始用Spark Streaming时,心里肯定嘀咕,对
2017-03-24 23:09:50 650
转载 Spark性能优化:资源调优篇
Spark性能优化:资源调优篇 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资
2017-03-24 13:22:57 271
转载 spark性能优化:数据倾斜调优
spark性能优化:数据倾斜调优原文:http://blog.csdn.net/lw_ghy/article/details/51419877调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
2017-03-23 15:31:00 336
转载 Spark Streaming 实现思路与模块概述
Spark Streaming 实现思路与模块概述[酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:2016.01.04 update, Spark 1.6 全系列 √ (1.6.0)2015.11.09 update, Spark 1.5 全系列 √ (1.5.0,
2017-03-23 13:13:21 674
转载 Java堆内存的划分
根据对象的存活率(年龄),Java对内存划分为3种:新生代、老年代、永久代1、新生代: 比如我们在方法中去new一个对象,那这方法调用完毕后,对象就会被回收,这就是一个典型的新生代对象。现在的商业虚拟机都采用这种收集算法来回收新生代,新生代中的对象98%都是“朝生夕死”的,所以并不需要按照1:1的比例来划分内存空间,而是将内存分为一块比较大的Eden空间和两块较小的Surviv
2017-03-23 09:13:18 321
转载 Spark性能优化:JVM参数调优
Spark性能优化:JVM参数调优原文: http://blog.csdn.net/kwu_ganymede/article/details/51299115#comments关于JVM垃圾回收种类Minor GC从年轻代空间(包括 Eden 和 Survivor 区域)回收内存被称为 Minor GC。这一定义既清晰又易于理解。但是,当发生Minor GC事件的时候,
2017-03-23 09:02:47 527
转载 大数据实时处理实战
作者:武智晖,北京移动网络运行维护中心大数据系统架构师,北京邮电大学软件工程硕士,高级工程师。多年从事系统架构设计,软件开发,运营商大数据分析挖掘工作。随着互联网时代的发展,运营商作为内容传送的管道服务商,在数据领域具有巨大的优势,如何将这些数据转化为价值,越来越被运营商所重视。运营商的大数据具有体量大,种类多的特点,如各类话单、信令等,通常一种话单每天的数据量就有上百亿条。随
2017-03-22 21:36:18 786
转载 在Spark集群中,集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系??
在Spark集群中,集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系??作者:王燚光链接:https://www.zhihu.com/question/33270495/answer/93424104来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。梳理一下Spark中关于并发度涉及的几个概念File,Block,Spl
2017-03-22 15:09:53 1917
转载 Spark Streaming:性能调优
Spark Streaming:性能调优原文网址: http://blog.csdn.net/kwu_ganymede/article/details/50577920数据接收并行度调优(一)通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DSt
2017-03-22 14:33:58 335
转载 spark学习13之RDD的partitions数目获取
spark学习13之RDD的partitions数目获取原文网址: http://blog.csdn.net/xubo245/article/details/51475506spark1.5.21解释 获取RDD的partitions数目和index信息 疑问:为什么纯文本的partitions数目与HDFS的block数目一样,但是.gz的压缩文件的par
2017-03-18 16:41:35 899
转载 用Eclipse 开发play
原文: http://blog.csdn.net/u013372441/article/details/47100843前提是已经把play导入到eclipse里面去了,没有请看这:http://blog.csdn.NET/u013372441/article/details/47100129然后在工程的目录下建立这么几个文件如下图所示直接代码App
2017-03-17 11:18:57 402
转载 Play! Framework 学习笔记(一):初识Play
目标一:学习官网Getting Started和Run Demo @学弟学妹醒目,要了解一个框架,第一件事就是运行最简单的例子“HELLO WORLD”,(喂!喂!学长,你不会以为我们是白痴吧。。。#_#)。别怀疑,其实往往跑最简单的例子能更加迅速的了解框架的大致工作原理,这里也说一下的是,在学校的学习时,我们大多习惯于,想学一门技术时,先去图书馆找一本厚厚的教材,书名字中经常会
2017-03-17 09:16:18 623
转载 什么是函数式编程
什么是函数式编程门java8出来后,特意了解它的新特性lambda表达式,由此头一次听说了函数式编程这个词,听起来挺高深的样子。也曾各种搜索去了解它的来龙去脉。甚至买了一本书《函数式编程思想》,并在部门内进行了一次讨论。此时,首先需要回答的问题便是函数式编程:那是什么东西?为此,我逛过百度,各种博客,知乎,github,但没有看到一个直接的答案,大多是列举函数式编程的特
2017-03-16 17:19:45 342
转载 Hadoop YARN常见问题以及解决方案
作者:Dong | 新浪微博:西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-problems-vs-solutions/本博客的文章集合:http://dongxicheng.org/recommend/本文汇总了几个hadoop
2017-03-16 11:41:19 613
转载 Linux查看CPU信息[//proc/loadavg]
工作原理:基于/proc 文件系统Linux 系统为管理员提供了非常好的方法,使其可以在系统运行时更改内核,而不需要重新引导内核系统,这是通过/proc 虚拟文件系统实现的。/proc 文件虚拟系统是一种内核和内核模块用来向进程(process)发送信息的机制(所以叫做“/proc”),这个伪文件系统允许与内核内部数据结构交互,获取有关进程的有用信息,在运行中(on the fly
2017-03-16 10:50:28 562
转载 linux查看CPU性能及工作状态的指令mpstat,vmstat,iostat,sar,top
linux查看CPU性能及工作状态的指令mpstat,vmstat,iostat,sar,top衡量CPU性能的指标:1,用户使用CPU的情况;CPU运行常规用户进程CPU运行niced processCPU运行实时进程2,系统使用CPU情况;用于I/O管理:中断和驱动用于内存管理:页面交换用户进程管理:进程开始和上下文切换3
2017-03-16 10:01:44 575
转载 Linux-Centos7----安装Python的psutil模块插件
原文URL: http://www.cnblogs.com/chentq/p/4954135.htmlLinux-Centos7----安装Python的psutil模块插件# wget https://pypi.python.org/packages/source/p/psutil/psutil-2.1.3.tar.gz# tar zxvf psutil-
2017-03-16 09:47:57 1634
转载 Python功能模块之psutil------ Linux性能(CPU、磁盘、内存、网卡)监控
原文URL: http://blog.csdn.net/zhouzhiwengang/article/details/44779521采集系统的基本性能信息包括CPU、内存、磁盘、网络等,可以完整描述当前系统的运行状态及质量。psutil模块已经封装了这些方法,用户可以根据自身的应用场景,调用相应的方法来满足需求,非常简单实用。(1)CPU信息Linux操作系统的CPU
2017-03-16 09:44:03 457
转载 linux /proc/loadavg(平均负载)
from : http://hi.baidu.com/mengyun8/blog/item/bd424531451b98e71a4cffc0.html一、什么是系统平均负载(Load average)?在Linux系统中,uptime、w、top等命令都会有系统平均负载load average的输出,那么什么是系统平均负载呢?系统平均负载被定义为在特定时间间隔内运行队列中的平均进程数。
2017-03-16 09:37:53 601
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人