自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 收藏
  • 关注

原创 HBase 修复region

定位线上问题发现HBase 60020端口响应总是超时。但线上服务器发现该region-server均正常。 通过 hbase hbck  发现该表虽然region 都在线,但是有几个region 有 hole。通过bin/hbase hbck -fix 定位修复。  在修复region后先关的聚类运算和关联的数据接入等任务都进行了重启和确认。 最终建模结果正常。  ...

2012-10-15 17:58:52 249

原创 ZZ 自动分类、相似度、去重等相关问题原理和算法

Google的吴军研究员写了数学之美系列,其中有“余弦定律与新闻的分类”和”矩阵运算和文本处理中的分类问题“对自动分类、相似度、去重等相关问题原理作了介绍,并找到一些相关算法:余弦定律与新闻的分类Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一...

2012-06-27 14:04:52 223

原创 ZZ I-Match算法 网页去重-算法篇

I-Match算法 网页去重-算法篇  网页去重-算法篇  前一篇(网页去重-比较文本的相似度-Near duplication detection )提到了5个解决网页去重的算法,这里我想讨论下这些算法1. I-Match 2. Shingliing3. SimHashing( locality sensitive hash) 4. Random Projection5. ...

2012-06-27 12:08:21 488

原创 ZZ 什么是Shingling算法 网页去重——Shingling 算法

什么是Shingling算法 网页去重——Shingling 算法  shingling算法用于计算两个文档的相似度,例如,用于网页去重。维基百科对w-shingling的定义如下:   In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequence...

2012-06-27 12:04:01 227

原创 ZZ Hamming distance

 Hamming distance n information theory, the Hamming distance, named after Richard Hamming, is the number of positions in two strings of equal length for which the corresponding elements are diff...

2012-06-27 10:54:59 107

linux进程端口信息查看

    ZooKeeper监控连接方法如下: lsof –i:2181 > XXX.log  wc –l XXX.log  grep pid XXX.log > XXA.log wc –l XXA.log即可获取某个进程关于2181端口的连接。        此法可以扩展到其他端口监听。         如果lsof 命令不可用,则可以通过n...

2012-06-17 10:09:45 82

原创 ZZ 基于用户投票的排名算法

from:  http://kb.cnblogs.com/page/135656/   基于用户投票的排名算法(一):Delicious和Hacker News  基于用户投票的排名算法(二):Reddit  基于用户投票的排名算法(三):Stack Overflow  基于用户投票的排名算法(四):牛顿冷却定律  基于用户投票的排名算法(五):威尔逊区间  基于用户投票的排名算...

2012-06-11 09:59:37 197

原创 DFSOutputStream ResponseProcessor exception

 WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception  for block blk_7400268305159146046_1226436java.net.SocketTimeoutException: 66000 millis timeout while waiting for ...

2012-06-06 11:30:22 1913

原创 JVM Crash分析

JVM Crash一般会生成core.pid文件和hs_err_pidXXXX.log。 打开hs_err_pidXXXX.log文件 一般有如下内容:  A fatal error has been detected by the Java Runtime Environment:##  SIGBUS (0x7) at pc=0x00007fb7006c6f31, pi...

2012-06-02 00:00:36 229

原创 ZZ 数据挖掘的方法论之谈CRISP-DM

 from:http://kb.cnblogs.com/page/76804/在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团,目的建立数据挖掘方法和过程的标准。在获得了EC(European Commission)的资助后,他们开始实现他们的目标。为了征集业界广泛的意...

2012-05-26 15:45:24 100

原创 java.lang.OutOfMemoryError: unable to create new native thread

 今天压系统,出现一个java.lang.OutOfMemoryError: unable to create new native thread问题,整个linux系统都不可用了.通过top -H命令看到线程数大于3万。通过ulimit -s 看到堆栈大小100K.ps -mp <pid>定位到问题进程。 然后jstack pid 查看进程相关信息,定位到代码...

2012-05-09 21:55:45 133

Protocol Buffer的安装与使用

转载请注名出处和作者:franciscolv.  http://www.cnblogs.com/franciscolv/archive/2012/05/05/2485348.html  最近要在产品中改进对象的序列化了。以前用的是java默认序列化实现功能,在产品上线之前要对关键的对象进行序列化/反序列化优化,以期改善存储效率。这里选取了Protocol buffer作为最终的方案,原因...

2012-05-05 20:30:23 92

原创 GC相关

java.lang.OutOfMemoryError: GC overhead limit exceeded 发生在GC占用大量时间为释放很小空间的时候发生的,是一种保护机制。解决方案是,关闭该功能,使用—— -XX:-UseGCOverheadLimit java.lang.OutOfMemoryError: java heap space 配置增大...

2012-04-19 12:12:22 70

原创 ZZ log4j配置说明

http://www.blogjava.net/sxyx2008/archive/2010/07/14/326028.html http://www.cnblogs.com/ITEagle/archive/2010/04/23/1718365.html

2012-03-24 21:58:37 79

2011个人总结

  今天是2011的最后一天,即将迈入2012。回顾这一年,有成功,有失败,有老友相聚,有朋友相离,一天天在成长,一天天在成熟,很多时候不能随性了,真是痛并生活着。简单的总结一下2011吧。         过年的时候并没有回家,我知道自己在某公司的实习生涯要结束了,抓紧时间总结沉淀一下这些时日的收获,回顾了自己的技术收获,整理了一些blog,发了一些,虽然很水,这里发现自己沉淀能力不强,...

2011-12-31 14:33:30 89

MongoDB小经验

 转载请著明作者与出处。franciscolv  http://shuofenglxy.iteye.com/admin/blogs/1330539 第一条:划分shard,使用replSet,保证服务不会全部失效,存储容灾很关键。第二条:大表要分表,划分ReplSet之后,表还是只存在于一个shard中。小表看需要。第三条:良好的键值设计,字段名称要短,不要用传统的数据库方式思...

2011-12-30 15:32:06 62

原创 Linux硬件查看命令 ZZ

查看CPU信息(型号)# cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c      8  Intel(R) Xeon(R) CPU            E5410   @ 2.33GHz(看到有8个逻辑CPU, 也知道了CPU型号)# cat /proc/cpuinfo | grep physical | uniq -c      4 ...

2011-12-09 12:16:33 80

原创 Linux slab 分配器详解 --- 了解 Linux 内存管理的方式Z

 良好的操作系统性能部分依赖于操作系统有效管理资源的能力。在过去,堆内存管理器是实际的规范,但是其性能会受到内存碎片和内存回收需求的影响。现在,Linux® 内核使用了源自于 Solaris 的一种方法,但是这种方法在嵌入式系统中已经使用了很长时间了,它是将内存作为对象按照大小进行分配。本文将探索 slab 分配器背后所采用的思想,并介绍这种方法提供的接口和用法。动态内存管理内存管...

2011-10-30 18:31:10 105

原创 ZZ paxos 实现

paxos 实现from:http://rdc.taobao.com/blog/cs/?p=162本文主要介绍zookeeper中zookeeper Server leader的选举,zookeeper在选举leader的时候采用了paxos算法(主要是fast paxos),这里主要介绍其中两种:LeaderElection 和FastLeaderElection.我们先要清...

2011-10-10 10:44:33 79

原创 分布式事务处理,两端提交协议 ZZ

from:http://blog.sina.com.cn/s/blog_4a1f59bf0100pplp.html随着网络环境的日益普及,新的应用呈现出许多相似的特点那就是开放性和分布性。对于Internet商业应用来说分布性和开放性更是最基本的要求,并且随着人们对电子商务、安全防范等复杂的Web应用需求的增加,Web应用不仅仅是对只读信息的存取,面向商业活动的读取将迅速增加。这意味着,从...

2011-10-02 15:30:20 186

原创 数组查值

问题描述:{4,5,7,8,1,2} 找值为K的元素。两种做法,一种常规的稍好于直接查找,另一种为二分o(lgn)import java.util.Arrays;public class FindK { public static void main(String[] args) { int[] a = { 4, 5, 7, 8, 1, 2 }; in...

2011-09-27 16:42:50 66

全排列 递归式

简单的整理一下全排列思路。全部遍历,打印前筛选条件。全部遍历则是交换,递归,还原。 package SortSet;public class PermOrder { private int[] a; public PermOrder(int[] a) { this.a = a; } public static void main(String[] ...

2011-09-27 15:18:31 54

简单的四则运算计算器

   这是一个简单的四则运算计算器,不支持括号,没有做乘法的越界计算和除0等异常处理。   只是简单的描述一个四则运算过程。 package SortSet;import java.util.Stack;public class OperationTest { private static Stack<Character> opeStack = ne...

2011-09-27 11:27:54 157

shell 命令 exec 建立tcp连接与关闭连接

 shell 命令中要直接与java进程进行端口通信的话,可以使用exec 8>/dev/tcp/172.27.24.12/11111; if [ "$?" != "0" ];then echo "open $host $port fail!"; exit 1; fiecho "test">&8;exec 8>&

2011-09-01 15:12:59 2000

原创 ZZ TCP状态迁移 close_wait状态

TCP状态迁移大家对netstat -a命令很熟悉,但是,你有没有注意到STATE一栏呢,基本上显示着established,time_wait,close_wait等,这些到底是 什么意思呢,在这篇文章,我将会详细的阐述。大家很明白TCP初始化连接三次握手吧:发SYN包,然后返回SYN/ACK包,再发ACK包,连接正式建立。但是这里有点出入,当请求者收到SYS /ACK包后,就开...

2011-09-01 14:35:45 107

原创 ZZ select poll epoll区别

select的本质是采用32个整数的32位,即32*32= 1024来标识,fd值为1-1024。当fd的值超过1024限制时,就必须修改FD_SETSIZE的大小。这个时候就可以标识32*max值范围的fd。对于单进程多线程,每个线程处理多个fd的情况,select是不适合的。1.所有的线程均是从1-32*max进行扫描,每个线程处理的均是一段fd值,这样做有点浪费2.102...

2011-08-28 17:39:09 86

原创 高性能IO设计的Reactor和Proactor模式 ZZ

原文来自:http://simpleframework.net/bbs/835/14129.html在高性能的I/O设计中,有两个比较著名的模式Reactor和Proactor模式,其中Reactor模式用于同步I/O,而Proactor运用于异步I/O操作。在比较这两个模式之前,我们首先的搞明白几个概念,什么是阻塞和非阻塞,什么是同步和异步,同步和异步是针对应用程序和内核的交互而言的,同步指...

2011-08-19 11:37:01 66

java定时器实现

这两天在重构代码,发现有几个map有出现内存泄露的问题。考虑到独立性,通过java 的timetask来实现。这里要注意的地方就是任务起始时间的获得。 import java.util.Calendar;import java.util.Date;import java.util.Timer;import java.util.TimerTask;/**...

2011-08-11 17:05:02 75

Linux定时任务之Crontab

Crontab -e编辑定时任务***** 分 小时 天 周 月 +command即可。Crontab与java程序。如果想要定时调用java程序,则需要在调用的java程序之前声明path,并export path。顺带java home jre home classpath都要上。原来默认的系统设计path在crontab任务中无效。crontab 与dos2unix ...

2011-06-17 15:01:10 65

原创 Linux下修改mysql密码

mysql -uroot -p旧密码登录use mysql;update user set password=password('新密码') where user='root';FLUSH PRIVILEGES;quit;mysql -uroot -p新密码。OK了show databases;select version();  apache重启 ...

2011-06-02 15:08:05 74

原创 Linux vi命令

vi +filename  编辑文件内容:set ff 查看文件格式 dos 或者unix:set ff= unix:wq 存盘退出i 输入esc 退出文本编辑模式  ./filename.shsh filename.sh 一样 i 开始插入  dd删除一行x删除一个字符...

2011-05-18 12:00:00 49

原创 Linux命令

 env 打印全部环境变量chown search:search recommend-log 把recommend-log目录owner转为seach组search用户。mkdir 建目录rmdir 删除空目录mv   移动文件目录到指定目录cp  复制文件   目录下所有文件到指定目录cd   进入目录 cd .. 退出目录date +%m 获取当前月份ll ...

2011-04-26 11:49:25 87

原创 ZZ:java WeakReference SoftReference and PhatomReference 介绍

Java 2 平台引入了 java.lang.ref 包,其中包括的类可以让您引用对象,而不将它们留在内存中。这些类还提供了与垃圾收集器(garbage collector)之间有限的交互。先“由强到弱”(只的是和垃圾回收器的关系)明确几个基本概念:strong references是那种你通常建立的reference,这个reference就是强可及的。这个不会被自动回收。例如:S...

2011-03-16 11:34:06 75

原创 封笔酝酿

额 前前后后写了不少东西了,更重要的是养成了一个积累的习惯。接下来的日子里,将减少blog写文章的数量,厚积薄发,慢慢积累。多读,多看,少写。工作一年之后,开始写高质量的blog....

2011-03-07 22:55:23 131

MapReduce初探与思考

     MapReduce是hadoop的分布式计算框架,主要包括map与reduce两大阶段:     Map阶段主要负责把数据输入转换成中间键值对结果,它要求输入为键值对方式,具体实现map方法就可以,产生的输出是以可序列化的键值对结果,对键要求可比较即可。而在读入输入数据之前,要求数据已经被逻辑分片。reduce阶段主要负责把中间结果进一步处理产生最后的输出结果。 ...

2011-03-03 14:01:57 108

python之动态增加对象方法

python3.1想要动态增加方法需要先Import types import typesclass Demo: def hello(self): print("hello world")helloInstance = Demo()def hello2(self): print ("hello again")Demo.hello2 ...

2011-03-01 17:09:58 100

原创 hadoop 基本注解: InterfaceAudience InterfaceStability

 InterfaceAudience类包含三个注解类型,用来被说明被他们注解的类型的潜在的使用范围(audience)。         @InterfaceAudience.Public:对所有工程和应用可用         @InterfaceAudience.LimitedPrivate:仅限于某些特定工程,如Comomn,HDFS等         @Inter...

2011-03-01 14:36:56 124

Python之测试

测试函数功能:def average(values): """Computes. >>> print(average([1,3,5,7,9])) 5.0 """ return sum(values)/len(values)   import doctestdoctest.testmo...

2011-02-28 10:14:55 93

原创 Python exception

BaseException +-- SystemExit +-- KeyboardInterrupt +-- GeneratorExit +-- Exception +-- StopIteration +-- ArithmeticError | +-- FloatingPointError | +-- Over...

2011-02-26 08:39:39 102

Python3.1之pickle

Python3.1把pickle cPickle合并了。调用的时候 直接import pickle as p 就可以了。 pickle就是python中序列化工具,可以序列化各种格式数据,甚至包括自己定义的。 简单的demo如下:import pickle as cpshoplistfile ='shoplist.data'shoplist=['apple',...

2011-02-26 08:17:36 76

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除