michael_zhu_2004
码龄15年
关注
提问 私信
  • 博客:194,937
    194,937
    总访问量
  • 15
    原创
  • 2,002,261
    排名
  • 28
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2009-08-04
博客简介:

michael_zhu_2004的专栏

查看详细资料
个人成就
  • 获得16次点赞
  • 内容获得7次评论
  • 获得66次收藏
创作历程
  • 3篇
    2013年
  • 47篇
    2012年
TA的专栏
  • Hadoop
    15篇
  • R
    13篇
  • 算法、统计和挖掘
    3篇
  • Smalltalk
    4篇
  • 幽默笑话
    3篇
  • 诗词杂散
    1篇
  • JRules
    5篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

赢在数据<R+Hadoop>群电子刊物《数据赢家》第二期出炉

《数据赢家》是QQ群279441740推出的用于推广和交流R语言、Hadoop技术的开放式电子刊物。 R语言是什么?根据百度百科的描述,R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具(http://baike.baidu.com/view/942569.htm)。R是开源免费的,同时也是
原创
发布博客 2013.03.13 ·
1309 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

赢在数据(R+Hadoop)群电子刊物《数据赢家》第三期出炉

《数据赢家》是QQ群279441740(赢在数据群)推出的用于推广和交流R语言、Hadoop技术的开放式电子刊物。 R语言是什么?根据百度百科的描述,R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具(http://baike.baidu.com/view/942569.htm)。R是开源免费的,同时也
原创
发布博客 2013.03.12 ·
1977 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《统计建模与R软件》练习答案-第2章

Exercise 1.x=c(1,2,3)y=c(4,5,6)e=c(1,1,1)z=2*x+y+eprint(z)pn=crossprod(x,y)pw=tcrossprod(x,y)print(pn)print(pw)Exercise 2.A=matrix(c(1:20), nrow=4, ncol=5)print(A)B=mat
原创
发布博客 2013.01.03 ·
1320 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hbase Shell 命令官方详解

alter Alter column family schema; pass table name and a dictionary specifying new column family schema. Dictionaries are described below in the GENERAL NOTES section. Dicti
转载
发布博客 2012.12.25 ·
1077 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop相关的考题

//Hadoop基础Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是A.    HadoopB.    NutchC.    LuceneD.    Solr答案:D配置Hadoop时,JAVA_HOME包含在哪一个配置文件中A.    hadoop-default.xmlB.    hadoop-env.shC
转载
发布博客 2012.12.19 ·
7529 阅读 ·
3 点赞 ·
0 评论 ·
9 收藏

HBase的RegionServer参数配置

hbase.hregion.max.filesize默认值:256M说明:在当前ReigonServer上单个Reigon的最大存储空间,单个Region超过该值时,这个Region会被自动split成更小的region。调优:小region对split和compaction友好,因为拆分region或compact小region里的storefile速度很快,内存占用低。缺点是s
原创
发布博客 2012.12.19 ·
7018 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

HBase的RegionServer宕机处理的探讨

HBase的RegionServer宕机超过一定时间后,HMaster会将其所管理的region重新分布到其他活动的RegionServer上,由于数据和日志都持久在HDFS中,该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。但是重新分配的region需要根据日志恢复原RegionServer中的内存MemoryStore表,这会导致宕机的region在这段时间内无法对外提供服
原创
发布博客 2012.12.19 ·
3635 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HBase的一些问题和答案

1.我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDBMS有什么区别?由于HBase的数据文件在HDFS系统中,因此本质上很难修改和删除数据。在HBase中,修改和删除数据都是增加1个新版本的数据(时间戳为最新),旧版本的数据并没有发生变化。Oracle没有数据的版本概念,在修改和删除数据时不会增加新的数据记录,直接对老数据进行修改或删除。
原创
发布博客 2012.12.19 ·
3435 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hive任务优化基础

1.少用count(distinct);  select count(distinct cookie_id) from lxw_t1;  性能差的原因:只会用一个reduce去处理;  优化的写法:select count(1) from (select cookie_id from lxw_t1 group by cookie_id) x;  配合set mapred.red
转载
发布博客 2012.12.11 ·
1240 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive任务优化--控制hive任务中的map数和reduce数

一、    控制hive任务中的map数:1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例:a)    假设input目录下有1个文
转载
发布博客 2012.12.11 ·
16701 阅读 ·
8 点赞 ·
4 评论 ·
46 收藏

MapReduce: 一个巨大的倒退

下面的一篇文章是一些RDBMS系统的大牛人从多个方面对MapReduce的批评,不妨一看。前言databasecolumn 的数据库大牛们(其中包括PostgreSQL的最初伯克利领导:Michael Stonebraker)最近写了一篇评论当前如日中天的MapReduce 技术的文章,引发剧烈的讨论。我抽空在这儿翻译一些,一起学习。译者注:这种 Tanenbaum vs. L
转载
发布博客 2012.12.11 ·
1694 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop的调度器总结

随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低,再按照
转载
发布博客 2012.12.11 ·
699 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爱情、婚姻、幸福、外遇、生活

一天,弟子问佛陀:什么是爱情?  佛陀说:我请你穿越这片稻田,去摘一株最大最金黄的麦穗回来,但是有个规则:你不能走回头路,而且你只能摘一次。于是弟子去做了。  许久之后,他却空着手回来了。  佛陀问他:怎么空手回来了?  弟子说道:当我走在田间的时候,曾看到过几株特别大特别灿烂的麦穗,可是,我总想着前面也许会有更大更好的,于是没有摘;但是,我继续走的时候,看到的麦穗,总觉得还不如先
转载
发布博客 2012.12.07 ·
913 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于C++的Hadoop Map/Reduce框架--HCE

Hadoop系统提供了MapReduce计算框架的开源实现,像Yahoo!、Facebook、淘宝、中移动、百度、腾讯等公司都在借助Hadoop进行海量数据处理。Hadoop系统性能不仅取决于任务调度器的分配策略,还受到分配后实际任务执行效率的影响,任务执行常常涉及读取、排序、归并、压缩、写入等具体阶段。HCE计算框架是一个开源项目,旨在通过优化任务执行的各个阶段,提升整个Hadoop系统的效
转载
发布博客 2012.12.07 ·
9936 阅读 ·
0 点赞 ·
1 评论 ·
7 收藏

Hadoop安全模式的理解

安全模式异常:在hadoop的实践过程中,系统启动的时候去修改和删除文件有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannotdelete/user/hadoop/input. Name node is in safe mode.从字面上来理解:“Name nodeis in safe mode.”hadoop的namenode处
转载
发布博客 2012.12.07 ·
10807 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

2012年12月R语言TIOBE榜单(排名25)

转载
发布博客 2012.12.07 ·
815 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop全分布模式安装和测试

我们Hadoop+R爱好者建立了一个Hadoop和R语言的学习交流的高级LV1 QQ群(279441740),欢迎加入学习、交流、讨论、下载。 1.    安装和配置运行环境虚机:  OracleVM VirtualBox 4.xLinux:    CentOS5.5(2.6.18-194.el5)Java:      JDK1.6.0_18(安装在/usr/java/jdk1
原创
发布博客 2012.11.27 ·
1274 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

32类计算机与数学领域最为重要的算法

奥地利符号计算研究所(Research Institutefor Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序。A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径。
转载
发布博客 2012.11.27 ·
670 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapR浅析

1. 天上掉下个MapRMapR成立于2009年,但是引起媒体广泛关注是缘由GIGAOM网站2011年3月的一篇报道 《MapR,Cloudera的新对手》(http://gigaom.com/cloud/meet-mapr-a-competitor-to-hadoop-leader-cloudera/),报道这么描述MapR:“构建一个HDFS的私有替代品,这个替代品比当前的开源版本快三
转载
发布博客 2012.11.27 ·
4096 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

历届图灵奖得主名单

◎ 1966  A. J. Perlis 高级编程技术和编译器架构◎ 1967  Maurice V. Wilkes设计出第一台具有内置存储程序的计算机EDSAC◎ 1968  Richard W. Hamming数值方法、自动编码系统、错误检测及错误校验码◎ 1969  Marvin Minsky创造、推进和提升人工智能◎ 1970  J. H. Wilkinso
转载
发布博客 2012.11.12 ·
2347 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多