- 博客(9)
- 资源 (1)
- 收藏
- 关注
转载 阿里实习二面
zhuan今天(20140421)参加了阿里巴巴北京站研发工程师的实习二面(JAVA方向),以下是面试经验:面试为2对1,一个技术面试官,一个HR,时常50min左右。技术面试官先问40min左右,HR问10分钟min左右。面试流程如下:一.自我介绍二.主要项目经历(和一面差不多)1. 讲一下最近在做的一个项目2. 项目整体情
2014-04-26 14:29:15 565
转载 redHat linux下安装hadoop 0.20.2, 并在windows下远程连接此hadoop,开发调试
此文章的前提是:知道hadoop是什么,知道什么是分布式系统,了解hdfs和mapreduce的概念和原理。这里只是把笔者在学习hadoop过程中的一些经验和自己的看法分享一下。此文章包括两部分: 1、hadoop 在 redhat linux下的安装过程 网上有很多讲授在windows下通过Cygwin安装hadoop的,笔者认为hadoop原始设计
2014-04-21 15:32:29 508
转载 hadoop作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutpu
2014-04-21 14:48:28 455
转载 谈Hadoop下各技术应用场景
标签: hadoop hbase hive 流处理 it分类: 随笔文章数据采集和DataFlow对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集。对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储。对于网页采集,前端可以采用
2014-04-21 10:15:35 661
原创 hbase基本介绍
本文主要简单的介绍一下hbase数据库,主要是基本模型,与关系数据库的不同,主要应用场景。本文并未涉及hbase数据库的安装,具体安装过程网上都比较详细,也可参考《hbase权威指南》1 hbase数据库产生的根源hbase是google公司bigtable的开源实现,hbase基于hadoop的hdfs主要是对hadoop分布式文件系统hdfs的有效补充。因为hdfs存在存储大量小文
2014-04-19 11:32:13 1153
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人