自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Make progress step by step everyday.....

主要从事JavaEE,Hadoop,Spark方面的工作,业余兴趣爱好NLP,DM,ML和DL相关方面的技术

  • 博客(41)
  • 资源 (6)
  • 收藏
  • 关注

转载 Sparak-Streaming基于Offset消费Kafka数据

Sparak-Streaming基于Offset消费Kafka数据原文http://blog.csdn.net/kwu_ganymede/article/details/50930962Sparak-Streaming基于Offset消费Kafka数据1、官方提供消费kafka的数据实例[java] view plain copy

2017-03-29 15:16:47 764

转载 Spark streaming kafka OffsetOutOfRangeException 异常分析与解决

Spark streaming kafka OffsetOutOfRangeException 异常分析与解决原文地址:http://blog.csdn.net/xueba207/article/details/51174818自从把Spark 从1.3升级到1.6之后,kafka Streaming相关问题频出。最近又遇到了一个。 job中使用Kafka Di

2017-03-29 10:46:19 2118

转载 Spark Streaming 'numRecords must not be negative'问题解决

Spark Streaming 'numRecords must not be negative'问题解决原文: http://blog.csdn.net/xueba207/article/details/51135423问题描述笔者使用Spark streaming读取Kakfa中的数据,做进一步处理,用到了KafkaUtil的createDirectStre

2017-03-29 10:35:11 1237

转载 Kafka监控工具KafkaOffsetMonitor

Kafka监控工具KafkaOffsetMonitor原文: http://blog.csdn.net/panguoyuan/article/details/445672591.下载KafkaOffsetMonitor-assembly-0.2.0.jar 网盘地址:http://pan.baidu.com/s/1eQgYZOA  密码:rd5y2.在服务器上创建kaf

2017-03-29 09:45:41 1299

转载 Spark createDirectStream保存kafka offset(JAVA实现)

Spark createDirectStream保存kafka offset(JAVA实现)问题描述最近使用Spark streaming处理kafka的数据,业务数据量比较大,就使用了kafkaUtils的createDirectStream()方式,此方法直接从kafka的broker的分区中读取数据,跳过了zookeeper,并且没有receiver,是spa

2017-03-28 15:40:33 765

转载 Spark streaming kafka1.4.1中的低阶api createDirectStream使用总结(Scala实现)

Spark streaming kafka1.4.1中的低阶api createDirectStream使用总结原文:http://blog.csdn.net/ligt0610/article/details/47311771        由于目前每天需要从kafka中消费20亿条左右的消息,集群压力有点大,会导致job不同程度的异常退出。原来使用sp

2017-03-28 15:25:43 544

转载 Spark1.6 内存管理模型( Unified Memory Management)分析

Spark 1.6 内存管理模型( Unified Memory Management)分析原文: http://www.jianshu.com/p/b250797b452a2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型: Unified Memory Management。这篇文章会详细分析新的内存管理模型,方便大家做调优。前言新的内存模型是

2017-03-28 12:43:24 395

转载 Spark性能调优

Spark性能调优发表于2015-07-08 13:37| 26398次阅读| 来源程序员电子刊| 3 条评论| 作者程序员电子刊监控工具程序员Spark2015年3月A摘要:通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参

2017-03-28 11:45:36 681

转载 linux服务器查看CPU物理颗数.内核数.线程数查看

linux服务器查看CPU物理颗数.内核数.线程数查看公司服务器是分几批购买的,所以造成配置方面也不大相同特别是cpu配置方面,一直想弄清楚这些cpu都是什么型号,有几颗物理cpu,每颗cpu有几个核心,没个核心有几个线程。看起来很繁琐,下面一起彻底分分析下。大致的看了下公司服务器的型号,这个很容易获取使用命令more /proc/cpuinfo |grep "model name

2017-03-27 13:17:53 972

转载 Spark1.5堆内存分配

Spark1.5堆内存分配转载URL : http://www.cnblogs.com/dreamfly2016/p/5720180.html这是spark1.5及以前堆内存分配图下边对上图进行更近一步的标注,红线开始到结尾就是这部分的开始到结尾spark 默认分配512MB JVM堆内存。出于安全考虑和避免内存溢出,Spark只

2017-03-27 12:56:48 679

转载 Spark On YARN内存分配

Spark On YARN内存分配原文地址: http://blog.javachen.com/2015/06/09/memory-in-Spark-on-yarn.html       本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那

2017-03-27 11:08:08 1107

转载 进程同步的几种机制

进程同步的几种机制原文:http://blog.csdn.net/wallwind/article/details/6895515多进程的系统中避免不了进程间的相互关系。本讲将介绍进程间的两种主要关系——同步与互斥,然后着重讲解解决进程同步的几种机制。       进程互斥是进程之间发生的一种间接性作用,一般是程序不希望的。通常的情况是两个或两个以上的进程需要同时访问某个共

2017-03-25 11:36:52 509

转载 Spark Streaming 的玫瑰与刺

Spark Streaming 的玫瑰与刺玫瑰篇主要是说Spark Streaming的优势点,刺篇就是描述Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。说人话:其实就是讲Spark Streaming 的好处与坑。作者:来源:博客虫|2016-01-28 10:11 移动端 收藏  分享

2017-03-24 23:15:28 408

转载 Spark On YARN内存分配

Spark On YARN内存分配时间 2015-06-09 00:00:00  JavaChen's Blog原文  http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html主题 Spark YARN本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spa

2017-03-24 23:12:01 520

转载 Spark Streaming 数据清理机制

Spark Streaming 数据清理机制时间 2016-05-11 10:29:54  51CTO原文  http://developer.51cto.com/art/201605/511024.htm主题 Spark StreamingSpark Streaming 数据清理机制大家刚开始用Spark Streaming时,心里肯定嘀咕,对

2017-03-24 23:09:50 657

转载 Spark性能优化:资源调优篇

Spark性能优化:资源调优篇      在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资

2017-03-24 13:22:57 281

转载 spark性能优化:数据倾斜调优

spark性能优化:数据倾斜调优原文:http://blog.csdn.net/lw_ghy/article/details/51419877调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。

2017-03-23 15:31:00 344

转载 Spark Streaming 实现思路与模块概述

Spark Streaming 实现思路与模块概述[酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:2016.01.04 update, Spark 1.6 全系列 √ (1.6.0)2015.11.09 update, Spark 1.5 全系列 √ (1.5.0,

2017-03-23 13:13:21 683

转载 Java堆内存的划分

根据对象的存活率(年龄),Java对内存划分为3种:新生代、老年代、永久代1、新生代: 比如我们在方法中去new一个对象,那这方法调用完毕后,对象就会被回收,这就是一个典型的新生代对象。现在的商业虚拟机都采用这种收集算法来回收新生代,新生代中的对象98%都是“朝生夕死”的,所以并不需要按照1:1的比例来划分内存空间,而是将内存分为一块比较大的Eden空间和两块较小的Surviv

2017-03-23 09:13:18 339

转载 Spark性能优化:JVM参数调优

Spark性能优化:JVM参数调优原文: http://blog.csdn.net/kwu_ganymede/article/details/51299115#comments关于JVM垃圾回收种类Minor GC从年轻代空间(包括 Eden 和 Survivor 区域)回收内存被称为 Minor GC。这一定义既清晰又易于理解。但是,当发生Minor GC事件的时候,

2017-03-23 09:02:47 533

转载 大数据实时处理实战

作者:武智晖,北京移动网络运行维护中心大数据系统架构师,北京邮电大学软件工程硕士,高级工程师。多年从事系统架构设计,软件开发,运营商大数据分析挖掘工作。随着互联网时代的发展,运营商作为内容传送的管道服务商,在数据领域具有巨大的优势,如何将这些数据转化为价值,越来越被运营商所重视。运营商的大数据具有体量大,种类多的特点,如各类话单、信令等,通常一种话单每天的数据量就有上百亿条。随

2017-03-22 21:36:18 810

转载 在Spark集群中,集群的节点个数、RDD分区个数、​cpu内核个数三者与并行度的关系??

在Spark集群中,集群的节点个数、RDD分区个数、​cpu内核个数三者与并行度的关系??作者:王燚光链接:https://www.zhihu.com/question/33270495/answer/93424104来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。梳理一下Spark中关于并发度涉及的几个概念File,Block,Spl

2017-03-22 15:09:53 1936

转载 Spark Streaming:性能调优

Spark Streaming:性能调优原文网址: http://blog.csdn.net/kwu_ganymede/article/details/50577920数据接收并行度调优(一)通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DSt

2017-03-22 14:33:58 348

转载 spark学习13之RDD的partitions数目获取

spark学习13之RDD的partitions数目获取原文网址: http://blog.csdn.net/xubo245/article/details/51475506spark1.5.21解释 获取RDD的partitions数目和index信息 疑问:为什么纯文本的partitions数目与HDFS的block数目一样,但是.gz的压缩文件的par

2017-03-18 16:41:35 917

转载 用Eclipse 开发play

原文: http://blog.csdn.net/u013372441/article/details/47100843前提是已经把play导入到eclipse里面去了,没有请看这:http://blog.csdn.NET/u013372441/article/details/47100129然后在工程的目录下建立这么几个文件如下图所示直接代码App

2017-03-17 11:18:57 425

转载 Play! Framework 学习笔记(一):初识Play

目标一:学习官网Getting Started和Run Demo  @学弟学妹醒目,要了解一个框架,第一件事就是运行最简单的例子“HELLO WORLD”,(喂!喂!学长,你不会以为我们是白痴吧。。。#_#)。别怀疑,其实往往跑最简单的例子能更加迅速的了解框架的大致工作原理,这里也说一下的是,在学校的学习时,我们大多习惯于,想学一门技术时,先去图书馆找一本厚厚的教材,书名字中经常会

2017-03-17 09:16:18 650

转载 什么是函数式编程

什么是函数式编程门java8出来后,特意了解它的新特性lambda表达式,由此头一次听说了函数式编程这个词,听起来挺高深的样子。也曾各种搜索去了解它的来龙去脉。甚至买了一本书《函数式编程思想》,并在部门内进行了一次讨论。此时,首先需要回答的问题便是函数式编程:那是什么东西?为此,我逛过百度,各种博客,知乎,github,但没有看到一个直接的答案,大多是列举函数式编程的特

2017-03-16 17:19:45 365

转载 Hadoop YARN常见问题以及解决方案

作者:Dong | 新浪微博:西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-problems-vs-solutions/本博客的文章集合:http://dongxicheng.org/recommend/本文汇总了几个hadoop

2017-03-16 11:41:19 637

转载 Linux查看CPU信息[//proc/loadavg]

工作原理:基于/proc 文件系统Linux 系统为管理员提供了非常好的方法,使其可以在系统运行时更改内核,而不需要重新引导内核系统,这是通过/proc 虚拟文件系统实现的。/proc 文件虚拟系统是一种内核和内核模块用来向进程(process)发送信息的机制(所以叫做“/proc”),这个伪文件系统允许与内核内部数据结构交互,获取有关进程的有用信息,在运行中(on the fly

2017-03-16 10:50:28 599

转载 linux查看CPU性能及工作状态的指令mpstat,vmstat,iostat,sar,top

linux查看CPU性能及工作状态的指令mpstat,vmstat,iostat,sar,top衡量CPU性能的指标:1,用户使用CPU的情况;CPU运行常规用户进程CPU运行niced processCPU运行实时进程2,系统使用CPU情况;用于I/O管理:中断和驱动用于内存管理:页面交换用户进程管理:进程开始和上下文切换3

2017-03-16 10:01:44 592

转载 Linux-Centos7----安装Python的psutil模块插件

原文URL: http://www.cnblogs.com/chentq/p/4954135.htmlLinux-Centos7----安装Python的psutil模块插件# wget https://pypi.python.org/packages/source/p/psutil/psutil-2.1.3.tar.gz# tar zxvf psutil-

2017-03-16 09:47:57 1656

转载 Python功能模块之psutil------ Linux性能(CPU、磁盘、内存、网卡)监控

原文URL: http://blog.csdn.net/zhouzhiwengang/article/details/44779521采集系统的基本性能信息包括CPU、内存、磁盘、网络等,可以完整描述当前系统的运行状态及质量。psutil模块已经封装了这些方法,用户可以根据自身的应用场景,调用相应的方法来满足需求,非常简单实用。(1)CPU信息Linux操作系统的CPU

2017-03-16 09:44:03 483

转载 linux /proc/loadavg(平均负载)

from : http://hi.baidu.com/mengyun8/blog/item/bd424531451b98e71a4cffc0.html一、什么是系统平均负载(Load average)?在Linux系统中,uptime、w、top等命令都会有系统平均负载load average的输出,那么什么是系统平均负载呢?系统平均负载被定义为在特定时间间隔内运行队列中的平均进程数。

2017-03-16 09:37:53 614

转载 CuratorFramework实现zookeeper文件夹与文件的上传下载

原文URL: http://blog.csdn.net/cjuexuan/article/details/49612153需求近期有一个solr项目,用户可以将自定义的配置文件与文件夹上传和下载到zookeeper中,原来一种做法是用solr中提供的ZkCLI实现,不过那个比较重,而且定制化也一般,所以我打算自己封装一个轻量级的Util工具,原来打算用原生的实现,不过后

2017-03-15 09:52:01 863

转载 InputFormat的数据划分、Split调度、数据读取三个问题的浅析

原文地址: InputFormat的数据划分、Split调度、数据读取三个问题的浅析http://www.aboutyun.com/thread-6803-1-1.html(出处: about云开发)在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Spli

2017-03-13 13:06:09 695

转载 java 虚拟机--新生代与老年代GC

原文网址: http://www.360doc.com/content/12/1023/16/9615799_243296263.shtml 摘要: 堆设置 -Xms :初始堆大小 -Xmx :最大堆大小 -XX:NewSize=n :设置年轻代大小 -XX:NewRatio=n: 设置年轻代和年老代的比值。如:为3,表示年轻代与年老代比值为1:3,年轻代占整个年轻代年

2017-03-13 09:41:51 262

原创 Spark 读取hdfs上的文件 错误:Caused by: java.io.IOException: Filesystem closed的处理

解决办法:第一种方法:源代码:FileSystem  fs = FileSystem.get(URI.create(hdfsFilePath), config);改为: FileSystem  fs = FileSystem.newInstance(URI.create(hdfsFilePath), config);第二种方法:在hdfs core-site.xml里把fs

2017-03-10 14:07:12 4355

转载 cdh5.7权限测试示例

转载请注明出处:http://www.cnblogs.com/xiaodf/本文旨在展示CDH基于Kerberos身份认证和基于Sentry的权限控制功能的测试示例。1. 准备测试数据123456cat /tmp/events.csv10.1.2.3,US,android,c

2017-03-10 11:48:32 905

转载 如何优雅地终止正在运行的Spark Streaming程序

转载原文地址:可以点击:https://www.iteblog.com/archives/1890.html进入原文阅读。  一直运行的Spark Streaming程序如何关闭呢?是直接使用kill命令强制关闭吗?这种手段是可以达到关闭的目的,但是带来的后果就是可能会导致数据的丢失,因为这时候如果程序正在处理接收到的数据,但是由于接收到kill命令,那它只能停止整个程

2017-03-08 11:02:53 6738

转载 Hadoop - 任务调度系统比较

Hadoop - 工作流- 任务调度系统比较原文: http://www.cnblogs.com/smartloli/p/4964741.html 1.概述在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂。那

2017-03-01 14:52:12 2761

Struts2 + Spring + ibatis

Struts2 + Spring + ibatis 比较完整的Demo,入门学习

2014-12-14

SSH整合分页Demo入门

SSH整合分页Demo入门

2014-10-26

ajax源代码

一个很不错ajax例子demo,代码中主要涉及的技术有ajax,xml,js,servle等,技术的综合使用,让你跟深刻的了解ajax原理

2013-04-11

EXt 学习API

EXt 学习API 个人感觉不错,而且是中文版的!

2013-04-08

java面试题

java面试题:包括有:代码与编程题,XML ,IO,线程类,Socket,数据库知识等

2013-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除