自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Java堆外内存泄露浅谈

前年的文章,备份前几天一个项目在长时间压测的情况下,发现内存一直飙升,停止压测,内存不释放,明显肯定是内存泄露。把JVM的 Xmx设小了还是无济于事,检查JVM的垃圾回收情况一切都正常,非常困惑,从来没有遇到过这样的情况。经高人指点,知道是JVM的堆外内存泄露,是指我的java程序或者调用到的第三方包直接向OS申请内存,不通过JVM,所以申请的内存不属于jvm管理,自然无法在GC里释放掉。...

2013-11-10 14:52:49 524

原创 lua、groovy嵌入到java中的性能对比

去年的文章,备份lua和groovy都是可以嵌入到java中的脚本语言。lua以高性能著称,与C/C++在游戏开放中有较多使用,groovy是一个基于Java虚拟机(JVM)的敏捷动态语言,在jvm下有着不错的性能。groovy天生与java有着极高的兼容性,两者间对象无缝存取,支持jsr223。而lua是基于C的,需要调用jni,jni的性能是硬伤。这块网上基本都用luajava,好多...

2013-11-10 14:50:39 736

原创 Spark范例:SortByKey

前年的文章,备份spark自身不提供sortByKey的功能,但提供reduceByKey,groupByKey,combineByKey等功能。SortByKey常用于构建倒排索引上。比如原始数据结构为(key1,4)(key1,3)(key1,7)(key1,1)需要转换成(key1,(1,3,4,7))我创建了一个简单的数据样本,保存到一个文件里sortByKey.txt。也可...

2013-11-10 14:48:50 176

原创 Spark范例:统计CSDN不同邮箱的密码白痴指数

前年的文章,备份spark编写了一段统计CSDN中不同邮箱的密码白痴程序,数据来源于最近被公布的csdn明文数据,以下代码重点是spark在编程性上的体验,性能上比较没有意思,这点数据单机都能计算,计算结果仅供娱乐。 感谢CSDN提供这么好的数据样本目前网上能找到的spark范例很少,这个算是扫盲吧。写这段代码过程顺便也熟悉了scala的各种写法。代码主要分3部分:1、白痴密码...

2013-11-10 14:47:28 371

初识spark-基本概念和例子

前年的文章,备份spark是一个开源的分布式计算系统,提供快速的数据分析功能。 官网地址 http://www.spark-project.org/ 据说性能高出hadoop很多(个人理解主要是因为两点:内存和cache),而且相对更加简单,灵活。非常适合需要反复迭代的计算,比如机器学习。spark基于scala编写,对我而言也是门陌生的语言,至今还是有很多不理解的地方。基本概念...

2013-11-10 14:45:49 145

Storm :twitter的实时数据处理工具

  Twitter在9月19日的Strange Loop大会上公布Storm的代码。这个类似于Hadoop的即时数据处理工具是BackType开发的,后来被Twitter收购用于Twitter。 Twitter列举了Storm的三大类应用: 1. 信息流处理{Stream processing}  Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。 2. 连续计算{Contin...

2011-09-19 22:41:22 274

关系型数据库到HBase的数据储存方式变迁

  我是标题党,其实本文与hbase关系不大,只是把它作为列族数据库的代表来讲。从目前字眼上看,HBase比Bigtable无疑更具吸引力。题目改成:RDBMS到列族的数据储存方式变迁 更恰当。 如今Bigtable型(列族)数据库应用越来越广,功能也很强大。但是很多人还是把它当做关系型数据库在使用,用原来关系型数据库的思维建表、存储、查询。本文以hbase举例讲述数据模式的变化。 传...

2011-08-26 11:35:40 230

实时计算应用场景

个人博客总是访问不了,原文:实时计算应用场景实时计算的概念很难定义,每个人对这四个字的理解可能都不同。个人观点主要分为两块:数据的实时入库和数据的实时计算。数据实时入库的时候,一般都需要对原始数据做一定的处理再入库。能在这个步骤计算尽量在这里完成。 这个类似数据的预算后入库,然后提供直接读取服务。对用户的延时性上最好。然而有一些对数据的计算并不能通过预算解决全部问题,比如搜索。...

2011-08-26 11:31:56 885

原创 linux中hadoop+zookeeper+hbase配置

环境准备 1.在windows下安装VMware  2.创建了3个fedora14 linux。地址分别为:  m201 192.168.0.201 (Namenode)  s202 192.168.0.202 (Datanode)  s203 192.168.0.203 (Datanode)  3.在linux系统中下载所需要的软件。分别为:  jdk-6u23-linux-i586...

2011-05-10 21:34:48 168

原创 NoRouteToHostException: Cannot assign requested address问题

解决办法:执行命令修改如下2个内核参数   sysctl -w net.ipv4.tcp_timestamps=1  开启对于TCP时间戳的支持,若该项设置为0,则下面一项设置不起作用sysctl -w net.ipv4.tcp_tw_recycle=1  表示开启TCP连接中TIME-WAIT sockets的快速回收...

2011-05-03 19:59:02 151

【备份】redis源码分析-如何rehash

原文地址:redis源码分析-如何rehashdict实现中主要用到如下结构体,其实就是个典型的链式hash。一个dict会有2个hash table,由dictht结构管理,编号为0和1.使用是优先使用0号hash table,当空间不足时会调用dictExpand来扩展hash table,此时准备1号hash table用于增量的rehash使用。rehash完成后把0号...

2011-04-20 12:30:07 140

【备份】对redis数据持久化的一些想法

原文地址:对redis数据持久化的一些想法数据持久化通俗讲就是把数据保存到磁盘上,保证不会因为断电等因素丢失数据。redis需要经常将内存中的数据同步到磁盘来保证持久化。redis支持两种持久化方式,一种是 Snapshotting(快照)也是默认方式,另一种是Append-only file(缩写aof)的方式。先介绍下这两种dump方式再讲讲自己遇到的一些现象和想法,前面的内容是从...

2011-04-20 12:28:51 260

原创 tokyotyrant的内部实现特征

修改一个value值的时候,当新数据大于老数据,如果后面有空间,就增大,没有就移动。有两种收拾碎片的方法,一是把数据重新导一份,名曰静态碎片整理,这个是手动调接口执行的。二是动态收集碎片,再重新整合,这个过程是在一些常规操作中被触发进行的。B+树存储的父子结点间是双链。B+树存储的每一个叶结点是一个hash表,每一个叶结点叫一个page。B+树的索引是存在内存中的,每次inse...

2010-11-14 21:29:36 129

原创 Tokyo Cabinet 的四种数据结构

Tokyo Cabinet提供了Hash、Fixed-length、Table和B+ Tree四种数据结构,不同的结构特性和应用场景都不一样。TC本身提供了专门测试和调试工具tc (h/f/t/b) mgr。 Tokyo Tyrant在启动的时候,通过数据库文件名后缀来表示使用哪种数据结构。 以下是结构和后缀对应表: Hash Database :.tchB+ tree database...

2010-11-11 21:11:16 161

redis的内存陷阱

redis是个对内存依赖性很强的NoSql数据库,在内存足够的情况下性能出色如果只有一台机子去部署redis,一定要特别小心。比如我有台24G的服务器,理所当然我会将大量内存分配给redis。比如20G的内存, 问题来了, 当你对redis插入数据后,redis会异步将数据dump到硬盘中想起来很完美,问题是它会fork一个进程,并占去同样大小的内存,你需要的内存瞬间便为 ...

2010-11-11 09:44:01 107

原创 CAP理论及系统一致性

印象中CAP理论开始流行是从Amazon Dynamo的论文开始的,Amazon的CTO还在他的博客中介绍了最终一致性的概念,从此以后,各种会议和交流中都少不了CAP的影子。然而,对于分布式系统工程设计和开发来说,CAP意味着什么呢?CAP 理论由 Berkerly 的 Brewer 教授提出,三者的含义如下:一致性 ( Consistency) :任何一个读操作总是能读取到之前完...

2010-11-11 09:41:49 119

原创 TokyoTyrant的管理工具tcrmgr使用小记

申明:本文转自 liunx.cnblogs.com, 感谢原作者 1.先启动一个测试用的ttserver 注意使用的所有路径都是绝对路径 ttserver -host 192.168.0.100 -port 20000 -thnum 4 -dmn -ulim 1024m -ulog $(pwd)/ulog/ -log $(pwd)/temp/test.log -pid $(pwd)/temp/te...

2010-11-10 16:02:34 124

原创 介绍一本搜索引擎爬虫方面的好书

这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的,目前已绝版。此书可说是非常珍贵这是china-pub的链接http://www.china-pub.com/6565 进了作者J...

2010-07-07 14:24:41 171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除