andyxm-CSDN博客

原创初试ASM

原意是spring配置文件的propertylist可以一一映射成一个枚举类，不过spring依赖注入也需要先定义好一个枚举类。本想spring有的property，都能优雅的使用它，如下图：不能依赖注入成枚举，构造一个枚举总行吧，结果枚举是一个单例的私有构造函数的类型。那想想用反射用ASM动态添加对象属性总可以吧，也比较优雅，如下图：想法是美好的，现实是残

2015-04-09 19:50:01 1379

转载 Mysql innodb 间隙锁

前段时间系统老是出现insert死锁，很是纠结。经过排查发现是间隙锁！间隙锁是innodb中行锁的一种，但是这种锁锁住的却不止一行数据，他锁住的是多行，是一个数据范围。间隙锁的主要作用是为了防止出现幻读，但是它会把锁定范围扩大，有时候也会给我们带来麻烦，我们就遇到了。在数据库参数中，控制间隙锁的参数是：innodb_locks_unsafe_for_binlog，这个参数默认值是OFF

2015-04-01 17:44:47 29060 5

转载 Mysql的锁机制解读

最近系统多次因对数据库锁使用不当引起问题，故从基础上学习一下mysql锁机制。基本概念：共享锁共享锁的代号是S，是Share的缩写，共享锁的锁粒度是行或者元组（多个行）。一个事务获取了共享锁之后，可以对锁定范围内的数据执行读操作。排它锁排它锁的代号是X，是eXclusive的缩写，排它锁的粒度与共享锁相同，也是行或者元组。一个事务获取了排它锁之后，可以对锁定范围内的数据执

2015-04-01 17:36:47 16312

转载 Hadoop-0.20.2 作业内存控制策略分析

转自：http://dongxicheng.org/mapreduce/hadoop-job-memory-control/对于Hadoop而言，对作业使用资源量进行限制是非常重要的，这可以防止一些有问题的作业因耗掉集群中大量资源而干扰其他正常作业。本文主要分析了Hadoop-0.20.2中作业内存控制相关策略，包括怎样启用Hadoop作业内存使用量控制功能，Hadoop怎样实

2015-03-03 10:35:43 602

原创密钥库文件格式(Keystore)和证书文件格式(Certificate)

密钥库文件格式【Keystore】格式 : JKS 扩展名 : .jks/.ks 描述 : 【Java Keystore】密钥库的Java实现版本，provider为SUN 特点 : 密钥库和私钥用不同的密码进行保护格式 : JCEKS 扩展名 : .jce 描述 : 【JCE Keystore】密钥

2015-03-03 10:32:56 878

原创幂等

f(f(x))=f(x)，重复多次调用操作结果等于单次操作结果。方法一：业务系统精细设计，保证结果幂等性（数学问题）方法二：系统缓存所有的请求和结果，检查到是重复的请求时，返回该请求第一次的结果。如：bool withdraw(account_id, amount)withdraw的语义是从account_id对应的账户中扣除amount数额的钱；如果扣除成功则返回t

2015-03-01 15:22:27 889

转载 Zookeeper在hbase集群的作用

1，hbase regionserver 向zookeeper注册，提供hbase regionserver状态信息（是否在线）2，hmaster启动时候会将hbase 系统表-ROOT- 加载到 zookeeper cluster，通过zookeeper cluster可以获取当前系统表.META.的存储所对应的regionserver信息。HMaster主要作用在于，通过H

2013-06-14 18:20:53 9752

原创 iptables防火墙设置

iptables -A INPUT -p tcp -s 192.168.20.190 --sport 1521 -j DROPiptables -A OUTPUT -p tcp -d 192.168.20.190 --dport 1521 -j DROPs参数为原地址，d参数未目的地址。

2013-01-23 12:25:32 824

原创使用java命令运行scala代码

1.Java环境变量JAVA_HOME = C:/Program Files/Java/jdk1.6.0_21(我本机的安装目录) CLASSPATH = .;%JAVA_HOME%/lib;(. 代表包含当前路径)Path = %JAVA_HOME%/bin 2.Scala环境变量SCALA_HOME = C:/scala-2.8.0.finalPath = %SC

2012-10-09 18:37:50 1081

转载 chrome的沙箱

你也知道我最近在写npapi，firefox搞定了，chrome和safari有问题。(以下转载) 百度谷歌一下 , 说chrome是浏览器安全标准 , 运用了“沙盒”这个东东，收集了一些资料，归纳如下：沙箱其实就是一个硬盘过滤文件驱动，具体来说，就是你把要写的东西写到了硬盘上，但实际上并没有写到硬盘，而是到了一个转存处，读取内容需要判断是沙箱开启之前就存在的内容还是开沙箱之后写入的内

2012-07-23 17:06:44 2873

原创子类化Firefox窗口下的Dialog下的EditControl

没错，你绝对没看错，是VC，在经过了选型、编译不过、再选型、库引用、链接、编译通过、写注册表、浏览器交互、ATL陷阱、CLR陷阱、MFC陷阱、找指针、绘图、定位资源、32位字符处理、父子窗口、消息传递等九九八十一道劫难后终于通过子类化让控件成功跑通了。LRESULT APIENTRY EditBoxProc( HWND hwndDlg, UINT uMsg,

2012-07-12 17:21:55 900

转载 GC策略笔记备忘（被namenode所迫）

转自：http://blog.csdn.net/ae86_fc/article/details/6244164引起namenode占据这么多内存的原因就不详细记了，经历过的人肯定都知道。既然这哥们占了这么大内存，那么其对应的ＧＣ肯定就表现的与众不同。在这个上面，我们真的吃过很多苦头，以前人傻，比较天真，也没有什么经验（估计SUN开发JVM的时候也没有想到过有人会把他们的产品用到这种

2012-02-03 10:44:22 2351

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2012-02-02 18:14:22 811

转载 hadoop作业调优参数整理及原理

1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示，每一个map都会对应存在一个内存buffer（MapOutputBuffe

2012-02-02 18:13:36 547

转载写好Hive 程序的五个提示

转自：http://www.tbdata.org/archives/622使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下，因为不熟悉数据特性，或没有遵循Hive的优化约定，Hive计算任务会变得非常低效，甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括：Join中需要将大表写在靠右

2012-02-02 17:31:28 661

转载 Hadoop-0.20.2 作业内存控制策略分析

转自：http://dongxicheng.org/mapreduce/hadoop-job-memory-control/对于Hadoop而言，对作业使用资源量进行限制是非常重要的，这可以防止一些有问题的作业因耗掉集群中大量资源而干扰其他正常作业。本文主要分析了Hadoop-0.20.2中作业内存控制相关策略，包括怎样启用Hadoop作业内存使用量控制功能，Hadoop怎样实

2012-02-02 16:40:54 1771

转载 Hadoop平台优化综述

1. 概述随着企业要处理的数据量越来越大，MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现，由于其良好的扩展性和容错性，已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台，虽然其应用价值已得到大家认可，但仍存在很多问题，以下是主要几个：（1） Namenode/jobtracker单点故障。 Hadoop采用的是master/s

2012-02-02 16:22:22 717

转载 Hive-0.5中UDF和UDAF简述

一、UDF1、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Integer/String, Hadoop IntWritable/Textc）用户提供的 map/reduce 脚本

2012-02-01 11:15:55 606

转载 RCFile高效存储结构

Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据库的数据存储和处理机制。它采用类SQL语言对数据进行自动化管理和处理，经过语句解析和转换，最终生成基于Hadoop的MapReduce任务，通过执行这些任务完成数据处理。图

2012-01-04 11:26:05 847

原创注意你的hosts文件--记一次HBase问题定位

最近在部署HBase时遇到一个非常奇怪的问题：集群有7台机器，其中1台Master，6台RegionServer。但是Master只能控制其中1台RegionServer，而无法控制其他5台RegionServer。打开master的日志文件，发现以下错误信息：2011-04-22 16:37:21,242 WARN org.apache.hadoop.hbase.master.Assig

2012-01-04 10:35:36 845

转载 HBase性能调优

转自：http://rdc.taobao.com/team/jm/archives/975另可参考：http://hbase.apache.org/book.html#performance配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间

2012-01-03 16:34:58 556

转载用hive+hdfs+sqoop分析日志的步骤

现在的部分工作是进行日志分析，由于每天的日志压缩前80多G左右，用lzop压缩后10G左右，如果用shell直接进行统计，需要花费很长时间才能完成，而且还需要用java函数对request url进行转换，于是采用hive+hdfs+sqoop方案进行日志统计分析hadoop+hive+hdfs+sqoop的架构就不详细说了，可以直接用cloudera的repo直接安装日志分析步骤

2011-12-28 13:51:58 956

转载 secondnamenode详解

光从字面上来理解，很容易让一些初学者先入为主的认为：SecondaryNameNode（snn）就是NameNode（nn）的热备进程。其实不是。snn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对HDFS metadata的信息的备份，并减少namenode重启的时间。对于hadoop进程中，要配置好并正确的使用 snn

2011-12-28 11:14:18 3354

转载使用cloudera CHD3u1 —— 使用eclipse plugin提交Job

转自：http://heipark.iteye.com/blog/1178810 Clouder CDH3B3 开始后hadoop.job.ugi不再生效，这意味着无法通eclipse plugin提交job和修改hdfs。大家初次使用hadoop eclipse plugin一定在修改HDFS文件过程中出现过下面的错误org.apache.hadoop.securit

2011-12-26 18:25:45 872

转载 Hadoop权限管理

摘自：http://dongxicheng.org/mapreduce/hadoop-permission-management/1. 介绍本文介绍的Hadoop权限管理包括以下几个模块：（1）用户分组管理。用于按组为单位组织管理，某个用户只能向固定分组中提交作业，只能使用固定分组中配置的资源；同时可以限制每个用户提交的作业数，使用的资源量等（2）作业管理。包括作业提交

2011-12-26 16:22:33 2092

转载 hash算法及应用

第一部分：Top K 算法详解Hash，一般翻译做“散列”，也有直接音译为"哈希"的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。数学表述为：h = H(

2011-10-31 14:47:38 1493

原创 ORA-01002 与 LockMode.UPGRADE

引言：为了纪念将要离去的DBA，记下这个关于ORA-01002的日志。 ORA-01002 fetch out of sequence Cause: In a host language program, a FETCH call was issued out of sequence. A successful parse-and-execute call must be

2011-10-21 16:36:34 1838

原创简单的apachebench

最佳线程数=（(线程等待时间+线程CPU时间)/线程CPU时间）*CPU线程数平均响应时间=(并发线程数/最佳线程数)*最佳线程数的响应时间 (小GC时间间隔/rt)*(并发线程数量*thm)rt=平均响应时间thm=线程完成一次请求生命周期内占用的平均内

2011-09-29 16:54:21 566

原创用hadoop估算圆周率PI(3.1415926)的值

转自：http://thinkinginhadoop.iteye.com/blog/710847晕，我算了一、hadoop不适合计算密集型的工作以前看过一个PPT： Hadoop In 45 Minutes or Less ，记得上面说hadoop不适合计算密集型的工作，比如计算PI后100000位小数。但是，前几天，我却发现了在hadoop自带的examp

2011-09-07 16:33:46 2847

转载 hbase介绍

转自：淘宝共享数据平台博客，与前一篇有细微差别。http://www.tbdata.org/archives/1509hbase是bigtable的开源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hi

2011-09-02 14:38:16 1274

转载 HBase技术介绍

转自：一淘网博客http://www.searchtb.com/2011/01/understanding-hbase.html，hbase应用确实很广泛。HBase简介HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google B

2011-09-02 14:32:56 586

转载海量空间数据库建设策略

待转转：2011年8月《程序员》

2011-08-21 23:20:02 573

转载淘宝数据魔方技术架构解析

淘宝网拥有国内最具商业价值的海量数据。截至当前，每天有超过30亿的店铺、商品浏览记录，10亿在线商品数，上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值，进而帮助淘宝、商家进行企业的数据化运营，帮助消费者进行理性的购物决策，是淘宝数据平台与产品部的使命。为此

2011-08-21 23:16:24 605

转载 NoSql 生态系统

13.1 NoSQL其名在给NoSQL下定义之前，我们先来试着从它的名字上做一下解读，顾名思义，NoSQL系统的数据操作接口应该是非SQL类型的。但在NoSQL社区，NoSQL被赋予了更具有包容性的含义，其意为Not Only SQL，即NoSQL提供了一种与传统关系型数据库不太一样的存储模式，这为开发者提供了在关系型数据库之外的另一种选择。有时候你可能会完全用NoSQL数据库代替关系型数据加

2011-08-21 08:14:17 766

转载 Big Data 技术综述

Big Data是近来的一个技术热点，但从名字就能判断它并不是什么新词。毕竟，大是一个相对概念。历史上，数据库、数据仓库、数据集市等信息管理领域的技术，很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了。然而，Big Data作为一个专有名词成为热点，主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无

2011-08-21 08:09:08 671

转载 Java 载入Jar内资源问题的探究

虽然是转载，当在我用spring的ResourcePatternResolver同样遇到了这个问题

2011-07-22 17:11:34 664

原创 DAL之基于mybatis的客户端

DAL作为公司新架构独立的数据访问服务开始了研发。DALClient1.0暂基于mybatis3和spring3，实现了数据cache，sql拦截缓存，全局事务管理。后期将实现基于hibernate和OSGI的版本研发。

2011-07-07 13:52:11 2531

转载 Redis几个认识误区

转自：http://timyang.net/data/redis-misunderstanding/ 这1年我们经历了很多眼花缭乱的key value存储产品的诱惑，从Cassandra的淡出(Twitter暂停在主业务使用)到HBase的兴起(Facebook新的邮箱业务选用HBase(2))，当再回头再去看Redis，发现这个只有1万多行源代码的程序充满了神奇及大量未经挖掘的特性。Re

2011-06-14 11:13:00 646

转载最佳线程数

转自：http://jjw.iteye.com/blog/703864 最佳线程数:性能压测的情况下，起初随着用户数的增加，QPS会上升，当到了一定的阀值之后，用户数量增加QPS并不会增加，或者增加不明显，同时请求的响应时间却大幅增加。这个阀值我们认为是最佳线程数。为什么要找最佳线程数1.过多的线程只会造成

2011-06-03 17:12:00 846

连接池设计文档

开源nio框架cindy源码

摩卡BSM与IBM Tivoli性能比较

空空如也