文件在使用FileChannel.map后不能被删除(Windows上)

同事发现在Windows上使用FileChannel的map方法之后, 不能够删除掉文件. 我在Linux上试了一下, 发现没这个问题。 做个笔记, 记录一下. [code="java"] import java.io.File; import java...

2013-01-06 18:07:24

阅读数 53

评论数 0

警惕使用jvm参数CMSRefProcTaskProxy

昨天中午的时候, 团队的兄弟找我看一个现象: 原先因为堆外内存使用过多会crash掉的java应用, 设置了最大堆外内存量(MaxDirectMemorySize)后jvm不会crash, 但出现了机器的两颗CPU全部被占满, 而且java程序没有响应的情况. 我用jstat ...

2012-10-31 10:19:41

阅读数 15

评论数 0

从Java视角理解伪共享(False Sharing)

从Java视角理解系统结构连载, 关注我的微博([url="http://weibo.com/coderplay"]链接[/url])了解最新动态 从我的[url="http://coderplay.iteye.com/blog/148...

2012-04-19 18:34:49

阅读数 11

评论数 0

从Java视角理解CPU缓存(CPU Cache)

从Java视角理解系统结构连载, 关注我的微博([url="http://weibo.com/coderplay"]链接[/url])了解最新动态 众所周知, CPU是计算机的大脑, 它负责执行程序的指令; 内存负责存数据, 包括程序自身数据. 同样大家都...

2012-04-14 21:54:41

阅读数 28

评论数 0

从Java视角理解CPU上下文切换(Context Switch)

从Java视角理解系统结构连载, 关注我的微博([url="http://weibo.com/coderplay"]链接[/url])了解最新动态 在高性能编程时,经常接触到多线程. 起初我们的理解是, 多个线程并行地执行总比单个线程要快, 就像多个人一起...

2012-04-11 15:35:18

阅读数 17

评论数 0

抛砖引玉, 淘宝统一离线数据分析平台设计

把这个拿出来的目的, 是想得到更多的反馈意见, 请邮件至zhouchen.zm@taobao.com [size=large]历史[/size] Hive 由 2009 年 3 月引入淘宝作为数据平台的海量数据分析基础框架, 引入的原因有如下 几点: (1) 不是所有用户都懂计算机...

2011-11-03 22:58:35

阅读数 14

评论数 0

HDFS的一致性分析

这篇文章去年4月左右写的, 一直留在我的草稿箱, 一直没有写完 :) 在分析HDFS的一致性之前, 我们先得解决HDFS客户端行为的几个问题。 [b][size=large]1. 为什么HDFS不支持多个writer同时写一个文件,即不支持并发写?[/size][/b] 首先谈一谈H...

2011-06-01 17:02:38

阅读数 113

评论数 0

NameNode优化笔记 (一)

很久没有发博客了, 最近这段时间工作上、生活上杂事比较多。最近经常有人问我在学校还是在公司。其实之前在学校读研, 入研之前工作过几年。那时候在学校研究MapReduce, 部署了10台的PC机做些Hadoop与机器学习的研究。08年末觉得学校限制我的发展, 就联系了几家公司实习。最后我到了淘宝实习...

2011-01-12 10:32:08

阅读数 9

评论数 0

我在Hadoop云计算会议的演讲

点击下载演讲稿 由中科院计算所主办的“Hadoop 中国2010云计算大会”于9月4日在北京召开。淘宝网作为国内最大的Hadoop应用商之一赞助与参与了这次会议。我有幸代表淘宝在大会上分享了淘宝在分布式数据处理实践的内容,下面是ppt的一个节选: 淘宝网目前有会员2亿左右,日均UV高达...

2010-10-26 14:59:11

阅读数 17

评论数 0

分布式online与offline设计 slides

花了两个小时简单了做了一个ppt,给兄弟公司相关人员讲解offline分析(例如hadoop,hive, pig这种应用)与online(例如bigtable, hbase)在设计上的不同,希望能解开大家对两种不同应用在设计上的一些误区。...

2010-08-25 00:24:18

阅读数 21

评论数 0

演讲: Hadoop与数据分析

前些天受金山软件公司西山居朋友的邀请, 去了趟珠海与金山的朋友们分享Hadoop与数据分析的相关经验. 附件是此次分享的ppt, 里面有一些图是来自网上。 ...

2010-05-29 20:35:49

阅读数 23

评论数 0

Hadoop的Mapper是怎么从HDFS上读取TextInputFormat数据的

[code="java"] LineRecordReader.next(LongWritable key, Text value) LineReader.readLine(Text str, int maxLineLength, int maxBytes...

2010-05-29 11:46:30

阅读数 37

评论数 0

Anthill: 一种基于MapReduce的分布式DBMS

MapReduce is a parallel computing model proposed by Google for large data sets, it’s proved to have high availability, good scalability and fault tol...

2010-05-11 22:47:44

阅读数 9

评论数 0

HDFS的追加/刷新/读设计

hdfs将在0.21版(尚未发布),把DFSOutputStream中的fsync操作(实际上是sync方法)更名为hflush, 因为之前的fsync做的工作实际上不是同步数据到磁盘,而是刷新(flush)缓存。fsync功能可能会在以后的版本中添加。   DFS对于未关闭文件的数据提供最大...

2010-01-26 00:26:48

阅读数 12

评论数 0

TFile, SequenceFile与gz,lzo压缩的测试

先记一记,以后解释 :)   $hadoop jar tfile-0.00.1-dev.jar org.apache.hadoop.io.file.tfile.TestTFileSeqFileComparison -c gz -f seqfile -r /home/zhoumin/tmp -x...

2010-01-07 22:47:59

阅读数 11

评论数 0

用户推荐Slope One算法与mapreduce&hive实现

下载本文代码 用户推荐越来越热, Google使用MinHash, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类;新浪也用Slope One以及一些Item-based的算法对音乐进行推荐; 淘宝定期会启动MapReduce作业分析前一天或者一个月用户收...

2009-09-14 20:23:58

阅读数 32

评论数 0

hive权限控制

对hive的元数据表结构要作以下调整: hive用户不与表有直接关系,表没有owner,只有能看见(能操作)/不能看见(不能操作)某个表之分。所以TBLS表应当去掉Owner字段。 对于CLI版本还是有一些冲突。目前Hive的CLI是运行在hive本地, 各用户使用各自的配置。配置里有元数据...

2009-09-07 14:35:53

阅读数 14

评论数 0

avro编译

avro是doug cutting主持的rpc项目,有点类似google的protobuf和facebook的thrift. avro用来做以后hadoop的rpc, 使hadoop的rpc模块通信速度更快,数据结构更紧凑。还有一个很令人兴奋的一点,就是支持多种语言,例如: c/c++,java,...

2009-07-04 00:36:22

阅读数 11

评论数 0

Hive的一些问题

偏激了一点. 总体来说Hive的思想是不错的, 思路是清晰的, 但代码也是啰嗦的, 简单的功能非得涉及到3,4个类,有时候十多个类。   1. 实现代码过量使用自己造的术语以及由它们引申的术语,导致代码理解起来非常困难, 例如SerDe(DynamicSerDe, LazySimpleSer...

2009-06-01 16:51:58

阅读数 25

评论数 0

出道distinct相关的sql题给大家做做

这几天在做sql编译相关的东西, 自己弄了个题目,连资深数据库开发人员都可能会搞错. 以下sql中哪些执行时会报错? (适于所有常见DBMS) 1. select distinct col from tbl 2. select distinct col1, ...

2009-05-22 20:13:07

阅读数 17

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭