自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ItStar

最新的行业动态,最深的技术挖掘,最全的干货分享。

  • 博客(14)
  • 收藏
  • 关注

转载 面试字节跳动经历。。。

原文:https://www.zhihu.com/question/31225105/answer/582508111来源:知乎人们都说,这个世界上有两种人注定单身,一种...

2019-02-25 22:33:26 3217

原创 六个案例强化MR程序的开发和理解之 多表关联

多表关联:和单表关联类似,也是通过对原始数据进行一定的处理, 从其中挖掘出目标信息。问题描述输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表包地...

2019-02-22 23:14:30 457

原创 六个案例强化MR程序的开发和理解之 单表关联

之前举过的案例:数据去重、数据排序、平均成绩都是在数据上进行一些简单的处理,为进一步的操作打基础。“单表关联”这个实例要求从给出的数据中寻找所关心的数据,它是对原始数据所...

2019-02-21 22:34:31 143

转载 潭州教育受邀参加“2019新工科建设与发展高峰论坛”

2019年2月17-18日,潭州教育ITSTAR创始人Arry老师受邀参加由教育部新工科研究与实践专家组主办、复旦大学承办的“新工科建设与发展高峰论坛暨综合性高校新工科研...

2019-02-20 18:01:07 693

转载 大数据技术之Cloudera Manager安装

第1章ClouderaManager1.1cloudera manager的概念简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集...

2019-02-20 18:01:07 126

转载 Sqoop-hive的参数介绍

hive参数介绍参数说明–hive-delims-replacement <arg>用自定义的字符串替换掉数据中的\n, \r, and \01等字符–hiv...

2019-02-19 23:23:17 1589

原创 六个案例强化MR程序的开发和理解之 平均成绩

“平均成绩”是重温经典“WordCount”例子,是在基础上的微变化版,该实例主要就是实现一个计算学生平均成绩的例子。问题描述对输入文件中数据进行就算学生平均成绩。 输入...

2019-02-19 23:23:17 403

原创 六个案例强化MR程序的开发和理解之 数据排序

“ 数据排序”是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操...

2019-02-18 21:19:38 233

原创 六个案例强化MR程序的开发和理解之 数据去重

“数据去重”主要是为了掌握和利用 并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数统计大数据集上的数据种类个数、 从网站日志中计算访问地等这些看似庞杂的任...

2019-02-16 23:19:33 282

转载 Zookeeper完全分布式安装

(1)下载安装包https://archive.apache.org/dist/zookeeper/(2)上传安装包到Linux alt+p(3)解压$ tar -zxv...

2019-02-16 23:19:33 60

转载 学计算机的需不需要考研?看完就明白了

大咖讲学堂Subscribe今天近日,各省考研成绩陆续出炉说到考试成绩自然是有人欢喜有人忧网上各种高分大神!是不是觉得考研好像很容易啊?那么多人都能考高分,我相信我也可...

2019-02-15 21:35:41 6035

原创 新旧 Hadoop MapReduce 框架比对

昨天和前天讲的Hadoop Yarn 框架原理运行机制和Hadoop MapReduce框架问题今天对新旧 MapReduce 框架做详细的分析和对比,可以看到有以下...

2019-02-15 21:35:41 185

转载 数据采集篇:大数据技术之Flume

一、Flume简介1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。2)Flume基于流式架...

2019-02-15 21:35:41 586

转载 新 Hadoop Yarn 框架原理及运作机制

从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看,MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可...

2019-02-14 19:53:24 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除