自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(96)
  • 收藏
  • 关注

转载 inode、软连接、硬链接

一、inode是什么?  理解inode,要从文件储存说起。文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存512字节(相当于0.5KB)。操作系统读取硬盘的时候,不会一个个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取一个"块"(block)。这种由多个扇区组成的"块",是文件存取的最小单位。"块"的大小,最常见的是4KB,即连续八...

2015-06-10 16:50:00 215

转载 jvm file.encoding 属性引起的storm/hbase乱码

1. 问题  今天为storm程序添加了一个计算bolt,上线后正常,结果发现之前的另一个bolt在将中文插入到hbase中后查询出来乱码。其中字符串是以UTF-8编码的url加密串,然后我使用的URLDecoder.decode(str, "UTF-8")解码,最后插入到hbase中。2. 排查(1)hbase中的数据传输都是使用的UTF-8,因此肯定不会出问题,故排除hb...

2015-06-03 11:36:00 291

转载 hadoop源码剖析--hdfs安全模式

一、什么是安全模式  hadoop安全模式是name node的一种状态,处于该状态时有种量特性:    1.namenode不接受任何对hfds文件系统的改变操作(即此时整个文件系统处于只读状态);    2.不执行block的replica和delete动作。二、安全模式的原理  安全模式实在name node启动时默认进入的,当然也可以手动开启或关闭安全模式。...

2015-05-29 17:21:00 231

转载 局域网扫描IP

今天有朋友去面试,被问到一个“如何扫描局域网IP”的问题(即找出局域网中当前已使用的IP),朋友回答的不好,回来问我,我首先想到的就是使用ping命令将局域网可分配的IP地址逐个遍历一遍,能ping通的就是已使用的。那么基于思路,实现代码也没啥太难的,以java语言来实现。linux下的代码:public static boolean pingIp(String ip) ...

2015-04-28 18:17:00 224

转载 32位机和64位机的区别及基本数据类型占字节数

一)64位系统和32位有什么区别?1、64bit CPU拥有更大的寻址能力,最大支持到16GB内存,而32bit只支持4G内存2、64位CPU一次可提取64位数据,比32位提高了一倍,理论上性能会提升1倍。但这是建立在64bit操作系统,64bit软件的基础上的。什么是64位处理器?之所以叫做“64位处理器”,是因为电脑内部都是实行2进制运算,处理器(CPU)一次...

2015-04-25 23:54:00 269

转载 storm源码剖析(3):topology启动过程

storm的topology启动过程是执行strom jar topology1.jar MAINCLASS ARG1 ARG2鉴于前面已经分析了脚本的解析过程,现在重点分析topology1.jar的执行。以storm-starter中的ExclamationTopology为例,来进行剖析:public class ExclamationTopology { ...

2015-04-16 18:54:00 161

转载 storm源码剖析(2):storm的配置项

storm的配置项,可以从backtype/storm/Config.java中找到所有配置项及其描述转载于:https://www.cnblogs.com/jerryshao2015/p/4432368.html

2015-04-16 16:02:00 95

转载 Linux下Fork与Exec

一、引言  对于没有接触过Unix/Linux操作系统的人来说,fork是最难理解的概念之一:它执行一次却返回两个值。fork函数是Unix系统最杰出的成就之一,它是七十年代UNIX早期的开发者经过长期在理论和实践上的艰苦探索后取得的成果,一方面,它使操作系统在进程管理上付出了最小的代价,另一方面,又为程序员提供了一个简洁明了的多进程方法。与DOS和早期的Windows不同,Un...

2015-04-16 14:37:00 137

转载 storm源码剖析(1):storm脚本

今天看了一下storm的命令行脚本${STORM_HOME}/bin/storm,现在将剖析过程整理一下,作为记录。注:使用的storm版本为0.8.0。${STORM_HOME}/bin/storm文件是用python写的,该文件写的还是相当精简和清晰的。首先,命令的运行从main()方法开始,main()方法主要是解析输入的命令和命令携带的参数以及读取默认配置和配置文件配置。...

2015-04-15 19:12:00 172

转载 书写优雅的shell脚本(八)- 日期格式化

1. 将日期格式转为时间戳获取当前时间:currenttime=`date "+%Y-%m-%d %H:%M:%S"` 结果:2015-04-13 11:15:43将当前时间转为时间戳:timestamp=`date -d "$curtime" +%s` 结果:1428894966 2. 将时间戳转为日期格式将当前时间戳转为日期格式:date ...

2015-04-13 11:38:00 146

转载 hadoop源码剖析--RawLocalFileSystem

RawLocalFileSystem是hadoop中实现的本地文件系统,在该类中与文件元数据和目录相关的操作,都是通过适配方式适配到java.io.File的对应API来完成的,适配过程简单,代码清晰。1.文件元数据和目录相关的操作分析下面主要以mkDirs()方法为例来窥探该类的实现和一些独到之处。/***********************************...

2015-03-13 16:42:00 895

转载 多线程辅助类-CountDownLatch的用法

转自:http://www.iteye.com/topic/1002652CountDownLatch,一个同步辅助类,在完成一组正在其他线程中执行的操作之前,它允许一个或多个线程一直等待。主要方法public CountDownLatch(int count);public voidcountDown();public voi...

2014-10-20 18:45:00 85

转载 内部类访问外部类方法中的参数-使用final

public synchronized <T extends MetricsSource> T register(final String name, final String desc, final T source) { if (this.monitoring) { registerSource(name, desc, source); }...

2014-10-16 14:25:00 99

转载 书写优雅的shell脚本(七)- ${COLUMN:-}

${COLUMN:-}如果COLUMN是空变量,或者变量不存在,返回-后面的内容,如果变量有值返回这个值。转载于:https://www.cnblogs.com/jerryshao2015/p/4419612.html

2014-10-08 16:08:00 263

转载 flume 日志收集单节点

flume 是 cloudera公司研发的日志收集系统,采用3层结构:1. agent层,用于直接收集日志;2.connect 层,用于接受日志; 3. 数据存储层,用于保存日志。由一到多个master管理1和2层节点。本文采用单节点试用flume日志处理。flume 单节点使用示例flume号称水道,其设计思路是水源(source)和水槽(sin...

2014-09-29 11:47:00 107

转载 syslog格式

转自:http://wly719.iteye.com/blog/18273941、syslog格式介绍在Unix类操作系统上,syslog广泛 应用于系统日志。syslog日志消息既可以记录在本地文件中,也可以通过网络发送到接收syslog的服务器。接收syslog的服务器可以对多个设备 的syslog消息进行统一的存储,或者解析其中的内容做相应的处理。常见的应用场景是...

2014-09-29 11:38:00 207

转载 linux下syslog使用说明

转自:http://blog.chinaunix.net/uid-25120309-id-3359929.htmlsyslog 系统日志应用1) 概述syslog是Linux系统默认的日志守护进程。默认的syslog配置文件是/etc/syslog.conf文件。程序,守护进程和内核提供了访问系统的日志信息。因此,任何希望生成日志信息的程序都可以...

2014-09-29 10:57:00 129

转载 进程优先级、nice值

进程cpu资源分配就是指进程的优先权(priority)。优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用,可以改善系统性能。还可以把进程运行到指定的CPU上,这样一来,把不重要的进程安排到某个CPU,可以大大改善系统整体性能。一、先看系统进程:首先,我想用一个简单的命令来引起这个议题。 无论在linux或者unix系统中,用...

2014-09-23 14:55:00 91

转载 机架感知

1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它机架的节点上找到数据。为了降低整体的带宽消耗和读取延时,...

2014-09-18 15:56:00 125

转载 awk实现求和、平均、最大值和最小值的计算操作

0、准备和数据文件比如有一个数据文件,只有一列(在之前可以通过各种手段过滤出只有数字这一列),比如操作的响应时间Txt代码4908981189235202121494270146515293692356356302722976127809168135516461885818...

2014-09-17 16:34:00 98

转载 深入理解WeakHashmap

转自:http://mikewang.blog.51cto.com/3826268/880775(一)查看API文档,WeakHashmap要点如下:1. 以弱键 实现的基于哈希表的 Map。在 WeakHashMap 中,当某个键不再正常使用时,将自动移除其条目。更精确地说,对于一个给定的键,其映射的存在并不阻止垃圾回收器对该键的丢弃,...

2014-09-16 10:44:00 107

转载 Hive文件格式

转自:http://www.cnblogs.com/Richardzhu/p/3613661.htmlhive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不...

2014-09-05 14:27:00 70

转载 rcfile

转自:http://flyingdutchman.iteye.com/blog/1871025 在当前的基于Hadoop系统的数据仓库中,数据存储格式是影响数据仓库性能的一个重要因素。Facebook于是提出了集行存储和列存储的优点于一身的RCFile文件存储格式,据说当前在Facebook公司内部,其数据仓库的文件存储格式都是RCFile,另外盛大内部的数据仓库使用...

2014-09-05 12:02:00 182

转载 书写优雅的shell脚本(六)- shell中的命令组合(&&、||、())

shell 在执行某个命令的时候,会返回一个返回值,该返回值保存在 shell 变量 $? 中。当 $? == 0 时,表示执行成功;当 $? == 1 时,表示执行失败。有时候,下一条命令依赖前一条命令是否执行成功。如:在成功地执行一条命令之后再执行另一条命令,或者在一条命令执行失败后再执行另一条命令等。shell 提供了 && 和 || 来实现命...

2014-09-04 16:27:00 142

转载 虚拟内存

转自:http://blog.sina.com.cn/s/blog_455536380100b0de.html什么是虚拟内存  虚拟内存是用硬盘空间做内存来弥补计算机RAM空间的缺乏。当实际RAM满时(实际上,在RAM满之前),虚拟内存就在硬盘上创建了。当物理内存用完后,虚拟内存管理器选择最近没有用过的,低优先级的内存部分写到交换文件上。这个过程对应用是隐藏的,应...

2014-08-23 23:21:00 162

转载 虚拟内存管理的作用/好处

转自:http://blog.csdn.net/tommy_wxie/article/details/86684061.读写内存的安全性物理内存本身是不限制访问的,任何地址都可以读写,而操作系统要求不同的页面具有不同的访问权限,这是利用CPU模式和MMU的内存保护机制实现的。例如,Text Segment被只读保护起来,防止被错误的指令意外改...

2014-08-23 23:12:00 105

转载 用/proc/stat计算cpu的占用率

转自:http://blog.csdn.net/pppjob/article/details/4060336在Linux下,CPU利用率分为用户态,系统态和空闲态,分别表示CPU处于用户态执行的时间,系统内核执行的时间,和空闲系统进程执行的时间,三者之和就是CPU的总时间,当没有用户进程、系统进程等需要执行的时候,CPU就执行系统缺省的空闲进程。从平常的思维方式理解的话,CP...

2014-08-23 22:45:00 92

转载 Runtime.getRuntime().addShutdownHook(Thread)

Runtime.getRuntime().addShutdownHook(Thread)为虚拟机添加关闭时添加钩子线程转载于:https://www.cnblogs.com/jerryshao2015/p/4419627.html

2014-08-11 17:37:00 80

转载 hadoop源码剖析--$HADOOP_HOME/bin/hadoop脚本文件分析

1. $HADOOP_HOME/bin/ hadoop#!/usr/bin/env bash# Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# th...

2014-08-11 13:00:00 408

转载 ${varname:-defaultvalue}

${varname:-defaultvalue}的意思是:如果varname存在且非null,则返回其值;否则,返回defaultvalue。用途:如果变量未定义,则返回默认值。转载于:https://www.cnblogs.com/jerryshao2015/p/4419629.html...

2014-08-11 10:50:00 166

转载 出现Insufficient space for shared memory file错误解决

今天在linux下敲命令,出现上面的错误,原来是临时文件目录(/tmp)下的空间不够了,df一看/下100%了。转载于:https://www.cnblogs.com/jerryshao2015/p/4419630.html...

2014-07-30 17:01:00 986

转载 org.apache.hadoop.hbase.NotServingRegionException: Region is not online 错误

当遇到如下错误的时候 可能以为是regionserver 挂掉或者其他原因导致连接不上regionserver 但后面提示了Hbase 表statistic_login 具体信息Thu Jan 17 15:30:12 CST 2013, org.apache.hadoop.hbase.client.ScannerCallable@5ec136e9, org.ap...

2014-07-30 16:55:00 462

转载 linux防火墙过滤规则

一、linux防火墙基础防火墙分为硬件防火墙和软件防火墙。1.概述linux 防火墙体系主要工作在网络层,针对TCP/IP数据包实施过滤和限制,属于典型的包过滤防火墙。包过滤机制:netfilter管理防火墙规则命令工具:iptablesnetfilter 指linux内核中实现包过滤防火墙的内部结构,不依程序或文件的形式存在,...

2014-07-30 16:41:00 277

转载 hadoop部署之防火墙

在部署hadoop时,好多资料上都写了要关闭防火墙,如果不关闭可能出现节点间无法通信的情况,于是大家也都这样做了,因此集群通信正常。当然集群一般是处于局域网中的,因此关闭防火墙一般也不会存在安全隐患,但如果需要防火墙对其他的连接依旧起作用的话,就不能简单的关闭它,而是可以通过配置防火墙的过滤规则,即将hadoop需要监听的那些端口配置到防火墙接受规则中。关于防火墙的规则配置参...

2014-07-30 16:09:00 317

转载 NIO与IO的区别

nio是new io的简称,从jdk1.4就被引入了。现在的jdk已经到了1.6了,可以说不是什么新东西了。但其中的一些思想值得我来研究。这两天,我研究了下其中的套接字部分,有一些心得,在此分享。首先先分析下:为什么要nio套接字?nio的主要作用就是用来解决速度差异的。举个例子:计算机处理的速度,和用户按键盘的速度。这两者的速度相差悬殊。如果按照...

2014-07-29 11:00:00 57

转载 python动态类型

在python中,类型是在运行过程中自动决定的,而不是通过代码声明。这意味着没有必要事先声明变量。即,在python中,变量名没有类型,类型属于对象而不是变量名。从另一方面讲,对象知道自己的类型。每个对象都包含了一个头部信息,其中标记了这个对象的类型。对象的垃圾收集每当一个变量名被赋予了一个新的对象,之前的那个对象占用的空间就会被回收(如果它咩有被其他的变量名或对...

2014-07-28 16:42:00 94

转载 关于python代码的性能

在python中性能测试是一个很难应付的任务,因为它在反复地优化,也许版本和版本之间差别很大。python中的一个主要的原则是,首先为了简单和可读性去编写代码,在程序运行后,并证明了确实有必要考虑性能后,再考虑性能问题。更多的情况是代码本身就已经足够快了。如果确实需要提高代码的性能,那么python提供了帮助你实现的工具,包括time以及timeit模块和profile模块。...

2014-07-28 14:16:00 65

转载 python基本数据类型

对象是python中最基本的概念,python中数据以对象的形式出现--无论是python提供的内置对象,还是使用python或是像C扩展库这样的扩展语言工具创建的对象。对象时内存中的一部分,包括数值和相关操作的集合。python程序可以分解成模块、语句、表达式以及对象,如下:(1)程序由模块构成(2)模块包含语句(3)语句包含表达式(4)表达式建立并处理...

2014-07-28 14:15:00 260

转载 java中wait和notify

在JAVA中,是没有类似于PV操作、进程互斥等相关的方法的。JAVA的进程同步是通过synchronized()来实现的,需要说明的是,JAVA的synchronized()方法类似于操作系统概念中的互斥内存块,在JAVA中的Object类型中,都是带有一个内存锁的,在有线程获取该内存锁后,其它线程无法访问该内存,从而实现JAVA中简单的同步、互斥操作。明白这...

2014-07-23 18:19:00 111

转载 sql注入原理与实践

转自:http://blog.csdn.net/stilling2006/article/details/85264581.1.1 摘要日前,国内最大的程序员社区CSDN网站的用户数据库被黑客公开发布,600万用户的登录名及密码被公开泄露,随后又有多家网站的用户密码被流传于网络,连日来引发众多网民对自己账号、密码等互联网信息被盗取的普遍担忧。网络安全成...

2014-07-23 09:50:00 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除