自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Make progress step by step everyday.....

主要从事JavaEE,Hadoop,Spark方面的工作,业余兴趣爱好NLP,DM,ML和DL相关方面的技术

  • 博客(707)
  • 资源 (6)
  • 收藏
  • 关注

转载 基于距离的计算方法

基于距离的计算方法原文: http://blog.sina.com.cn/s/blog_52510b1d01015nrg.html1. 欧氏距离(Euclidean Distance)       欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: 

2017-05-22 14:26:09 378

转载 机器学习中各种距离计算

机器学习中各种距离计算原文: http://blog.csdn.net/qq_23617681/article/details/51471156机器学习中,经常需要计算各种距离。 比如KNN近邻的距离,Kmeans距离,相似度中的距离计算。 这种距离不一定都是欧氏距离,针对不同需求,数据的不同特点,距离的计算方式不同。 下面给出机器学习中常用的距离计算方式,及其应用特点

2017-05-22 14:23:19 649

转载 spark的三种模式的详细运行过程

spark的三种模式的详细运行过程http://blog.csdn.net/do_what_you_can_do/article/details/53128480一、Standalone模式1、使用SparkSubmit提交任务的时候(包括Eclipse或者其它开发工具使用new SparkConf()来运行任务的时候),Driver运行在Client;使用SparkS

2017-05-19 12:54:46 551

转载 Spark架构与作业执行流程简介

原文连接  http://xiguada.org/spark_architecture/Spark架构与作业执行流程简介Local模式运行Spark最简单的方法是通过Local模式(即伪分布式模式)。    运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local基于standalone的

2017-05-19 09:28:44 445

原创 MapReduce运行中遇到的问题

1:运行mapreduce任务任务过程中,出现下面现象,为啥? TaskAttempt killed because it ran on unusable nodehadoopserver13:8041 Container released on a *lost* node  YARN error: TaskAttempt killed because it ran on unusab

2017-05-17 10:26:26 2429

原创 CDH5.5启动Yarn的NodeManager报错

2017-04-12 22:27:46 1180

转载 使用process_monitor.sh监控hadoop进程的crontab配置

使用process_monitor.sh监控hadoop进程的crontab配置 可以从下列链接找到process_monitor.sh:https://github.com/eyjian/mooon/blob/master/common_library/shell/process_monitor.sh------------------------------------

2017-04-10 12:14:43 849 2

转载 Sparak-Streaming基于Offset消费Kafka数据

Sparak-Streaming基于Offset消费Kafka数据原文http://blog.csdn.net/kwu_ganymede/article/details/50930962Sparak-Streaming基于Offset消费Kafka数据1、官方提供消费kafka的数据实例[java] view plain copy

2017-03-29 15:16:47 752

转载 Spark streaming kafka OffsetOutOfRangeException 异常分析与解决

Spark streaming kafka OffsetOutOfRangeException 异常分析与解决原文地址:http://blog.csdn.net/xueba207/article/details/51174818自从把Spark 从1.3升级到1.6之后,kafka Streaming相关问题频出。最近又遇到了一个。 job中使用Kafka Di

2017-03-29 10:46:19 2000

转载 Spark Streaming 'numRecords must not be negative'问题解决

Spark Streaming 'numRecords must not be negative'问题解决原文: http://blog.csdn.net/xueba207/article/details/51135423问题描述笔者使用Spark streaming读取Kakfa中的数据,做进一步处理,用到了KafkaUtil的createDirectStre

2017-03-29 10:35:11 1222

转载 Kafka监控工具KafkaOffsetMonitor

Kafka监控工具KafkaOffsetMonitor原文: http://blog.csdn.net/panguoyuan/article/details/445672591.下载KafkaOffsetMonitor-assembly-0.2.0.jar 网盘地址:http://pan.baidu.com/s/1eQgYZOA  密码:rd5y2.在服务器上创建kaf

2017-03-29 09:45:41 1280

转载 Spark createDirectStream保存kafka offset(JAVA实现)

Spark createDirectStream保存kafka offset(JAVA实现)问题描述最近使用Spark streaming处理kafka的数据,业务数据量比较大,就使用了kafkaUtils的createDirectStream()方式,此方法直接从kafka的broker的分区中读取数据,跳过了zookeeper,并且没有receiver,是spa

2017-03-28 15:40:33 748

转载 Spark streaming kafka1.4.1中的低阶api createDirectStream使用总结(Scala实现)

Spark streaming kafka1.4.1中的低阶api createDirectStream使用总结原文:http://blog.csdn.net/ligt0610/article/details/47311771        由于目前每天需要从kafka中消费20亿条左右的消息,集群压力有点大,会导致job不同程度的异常退出。原来使用sp

2017-03-28 15:25:43 534

转载 Spark1.6 内存管理模型( Unified Memory Management)分析

Spark 1.6 内存管理模型( Unified Memory Management)分析原文: http://www.jianshu.com/p/b250797b452a2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型: Unified Memory Management。这篇文章会详细分析新的内存管理模型,方便大家做调优。前言新的内存模型是

2017-03-28 12:43:24 380

转载 Spark性能调优

Spark性能调优发表于2015-07-08 13:37| 26398次阅读| 来源程序员电子刊| 3 条评论| 作者程序员电子刊监控工具程序员Spark2015年3月A摘要:通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参

2017-03-28 11:45:36 667

转载 linux服务器查看CPU物理颗数.内核数.线程数查看

linux服务器查看CPU物理颗数.内核数.线程数查看公司服务器是分几批购买的,所以造成配置方面也不大相同特别是cpu配置方面,一直想弄清楚这些cpu都是什么型号,有几颗物理cpu,每颗cpu有几个核心,没个核心有几个线程。看起来很繁琐,下面一起彻底分分析下。大致的看了下公司服务器的型号,这个很容易获取使用命令more /proc/cpuinfo |grep "model name

2017-03-27 13:17:53 962

转载 Spark1.5堆内存分配

Spark1.5堆内存分配转载URL : http://www.cnblogs.com/dreamfly2016/p/5720180.html这是spark1.5及以前堆内存分配图下边对上图进行更近一步的标注,红线开始到结尾就是这部分的开始到结尾spark 默认分配512MB JVM堆内存。出于安全考虑和避免内存溢出,Spark只

2017-03-27 12:56:48 668

转载 Spark On YARN内存分配

Spark On YARN内存分配原文地址: http://blog.javachen.com/2015/06/09/memory-in-Spark-on-yarn.html       本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那

2017-03-27 11:08:08 1080

转载 进程同步的几种机制

进程同步的几种机制原文:http://blog.csdn.net/wallwind/article/details/6895515多进程的系统中避免不了进程间的相互关系。本讲将介绍进程间的两种主要关系——同步与互斥,然后着重讲解解决进程同步的几种机制。       进程互斥是进程之间发生的一种间接性作用,一般是程序不希望的。通常的情况是两个或两个以上的进程需要同时访问某个共

2017-03-25 11:36:52 503

转载 Spark Streaming 的玫瑰与刺

Spark Streaming 的玫瑰与刺玫瑰篇主要是说Spark Streaming的优势点,刺篇就是描述Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。说人话:其实就是讲Spark Streaming 的好处与坑。作者:来源:博客虫|2016-01-28 10:11 移动端 收藏  分享

2017-03-24 23:15:28 382

转载 Spark On YARN内存分配

Spark On YARN内存分配时间 2015-06-09 00:00:00  JavaChen's Blog原文  http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html主题 Spark YARN本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spa

2017-03-24 23:12:01 507

转载 Spark Streaming 数据清理机制

Spark Streaming 数据清理机制时间 2016-05-11 10:29:54  51CTO原文  http://developer.51cto.com/art/201605/511024.htm主题 Spark StreamingSpark Streaming 数据清理机制大家刚开始用Spark Streaming时,心里肯定嘀咕,对

2017-03-24 23:09:50 650

转载 Spark性能优化:资源调优篇

Spark性能优化:资源调优篇      在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资

2017-03-24 13:22:57 271

转载 spark性能优化:数据倾斜调优

spark性能优化:数据倾斜调优原文:http://blog.csdn.net/lw_ghy/article/details/51419877调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。

2017-03-23 15:31:00 336

转载 Spark Streaming 实现思路与模块概述

Spark Streaming 实现思路与模块概述[酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:2016.01.04 update, Spark 1.6 全系列 √ (1.6.0)2015.11.09 update, Spark 1.5 全系列 √ (1.5.0,

2017-03-23 13:13:21 674

转载 Java堆内存的划分

根据对象的存活率(年龄),Java对内存划分为3种:新生代、老年代、永久代1、新生代: 比如我们在方法中去new一个对象,那这方法调用完毕后,对象就会被回收,这就是一个典型的新生代对象。现在的商业虚拟机都采用这种收集算法来回收新生代,新生代中的对象98%都是“朝生夕死”的,所以并不需要按照1:1的比例来划分内存空间,而是将内存分为一块比较大的Eden空间和两块较小的Surviv

2017-03-23 09:13:18 321

转载 Spark性能优化:JVM参数调优

Spark性能优化:JVM参数调优原文: http://blog.csdn.net/kwu_ganymede/article/details/51299115#comments关于JVM垃圾回收种类Minor GC从年轻代空间(包括 Eden 和 Survivor 区域)回收内存被称为 Minor GC。这一定义既清晰又易于理解。但是,当发生Minor GC事件的时候,

2017-03-23 09:02:47 527

转载 大数据实时处理实战

作者:武智晖,北京移动网络运行维护中心大数据系统架构师,北京邮电大学软件工程硕士,高级工程师。多年从事系统架构设计,软件开发,运营商大数据分析挖掘工作。随着互联网时代的发展,运营商作为内容传送的管道服务商,在数据领域具有巨大的优势,如何将这些数据转化为价值,越来越被运营商所重视。运营商的大数据具有体量大,种类多的特点,如各类话单、信令等,通常一种话单每天的数据量就有上百亿条。随

2017-03-22 21:36:18 786

转载 在Spark集群中,集群的节点个数、RDD分区个数、​cpu内核个数三者与并行度的关系??

在Spark集群中,集群的节点个数、RDD分区个数、​cpu内核个数三者与并行度的关系??作者:王燚光链接:https://www.zhihu.com/question/33270495/answer/93424104来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。梳理一下Spark中关于并发度涉及的几个概念File,Block,Spl

2017-03-22 15:09:53 1917

转载 Spark Streaming:性能调优

Spark Streaming:性能调优原文网址: http://blog.csdn.net/kwu_ganymede/article/details/50577920数据接收并行度调优(一)通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DSt

2017-03-22 14:33:58 335

转载 spark学习13之RDD的partitions数目获取

spark学习13之RDD的partitions数目获取原文网址: http://blog.csdn.net/xubo245/article/details/51475506spark1.5.21解释 获取RDD的partitions数目和index信息 疑问:为什么纯文本的partitions数目与HDFS的block数目一样,但是.gz的压缩文件的par

2017-03-18 16:41:35 899

转载 用Eclipse 开发play

原文: http://blog.csdn.net/u013372441/article/details/47100843前提是已经把play导入到eclipse里面去了,没有请看这:http://blog.csdn.NET/u013372441/article/details/47100129然后在工程的目录下建立这么几个文件如下图所示直接代码App

2017-03-17 11:18:57 402

转载 Play! Framework 学习笔记(一):初识Play

目标一:学习官网Getting Started和Run Demo  @学弟学妹醒目,要了解一个框架,第一件事就是运行最简单的例子“HELLO WORLD”,(喂!喂!学长,你不会以为我们是白痴吧。。。#_#)。别怀疑,其实往往跑最简单的例子能更加迅速的了解框架的大致工作原理,这里也说一下的是,在学校的学习时,我们大多习惯于,想学一门技术时,先去图书馆找一本厚厚的教材,书名字中经常会

2017-03-17 09:16:18 623

转载 什么是函数式编程

什么是函数式编程门java8出来后,特意了解它的新特性lambda表达式,由此头一次听说了函数式编程这个词,听起来挺高深的样子。也曾各种搜索去了解它的来龙去脉。甚至买了一本书《函数式编程思想》,并在部门内进行了一次讨论。此时,首先需要回答的问题便是函数式编程:那是什么东西?为此,我逛过百度,各种博客,知乎,github,但没有看到一个直接的答案,大多是列举函数式编程的特

2017-03-16 17:19:45 342

转载 Hadoop YARN常见问题以及解决方案

作者:Dong | 新浪微博:西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-problems-vs-solutions/本博客的文章集合:http://dongxicheng.org/recommend/本文汇总了几个hadoop

2017-03-16 11:41:19 613

转载 Linux查看CPU信息[//proc/loadavg]

工作原理:基于/proc 文件系统Linux 系统为管理员提供了非常好的方法,使其可以在系统运行时更改内核,而不需要重新引导内核系统,这是通过/proc 虚拟文件系统实现的。/proc 文件虚拟系统是一种内核和内核模块用来向进程(process)发送信息的机制(所以叫做“/proc”),这个伪文件系统允许与内核内部数据结构交互,获取有关进程的有用信息,在运行中(on the fly

2017-03-16 10:50:28 562

转载 linux查看CPU性能及工作状态的指令mpstat,vmstat,iostat,sar,top

linux查看CPU性能及工作状态的指令mpstat,vmstat,iostat,sar,top衡量CPU性能的指标:1,用户使用CPU的情况;CPU运行常规用户进程CPU运行niced processCPU运行实时进程2,系统使用CPU情况;用于I/O管理:中断和驱动用于内存管理:页面交换用户进程管理:进程开始和上下文切换3

2017-03-16 10:01:44 575

转载 Linux-Centos7----安装Python的psutil模块插件

原文URL: http://www.cnblogs.com/chentq/p/4954135.htmlLinux-Centos7----安装Python的psutil模块插件# wget https://pypi.python.org/packages/source/p/psutil/psutil-2.1.3.tar.gz# tar zxvf psutil-

2017-03-16 09:47:57 1634

转载 Python功能模块之psutil------ Linux性能(CPU、磁盘、内存、网卡)监控

原文URL: http://blog.csdn.net/zhouzhiwengang/article/details/44779521采集系统的基本性能信息包括CPU、内存、磁盘、网络等,可以完整描述当前系统的运行状态及质量。psutil模块已经封装了这些方法,用户可以根据自身的应用场景,调用相应的方法来满足需求,非常简单实用。(1)CPU信息Linux操作系统的CPU

2017-03-16 09:44:03 457

转载 linux /proc/loadavg(平均负载)

from : http://hi.baidu.com/mengyun8/blog/item/bd424531451b98e71a4cffc0.html一、什么是系统平均负载(Load average)?在Linux系统中,uptime、w、top等命令都会有系统平均负载load average的输出,那么什么是系统平均负载呢?系统平均负载被定义为在特定时间间隔内运行队列中的平均进程数。

2017-03-16 09:37:53 601

Struts2 + Spring + ibatis

Struts2 + Spring + ibatis 比较完整的Demo,入门学习

2014-12-14

SSH整合分页Demo入门

SSH整合分页Demo入门

2014-10-26

ajax源代码

一个很不错ajax例子demo,代码中主要涉及的技术有ajax,xml,js,servle等,技术的综合使用,让你跟深刻的了解ajax原理

2013-04-11

EXt 学习API

EXt 学习API 个人感觉不错,而且是中文版的!

2013-04-08

java面试题

java面试题:包括有:代码与编程题,XML ,IO,线程类,Socket,数据库知识等

2013-04-08

java设计模式(第二版)

JAVA设计模式,一本非常不错的书!是英文版图书,我个人觉得不错,我自己读的是中文版,但是中文版的java设计模式,不完整!

2013-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除