- 博客(14)
- 收藏
- 关注
转载 面试字节跳动经历。。。
原文:https://www.zhihu.com/question/31225105/answer/582508111来源:知乎人们都说,这个世界上有两种人注定单身,一种...
2019-02-25 22:33:26 3217
原创 六个案例强化MR程序的开发和理解之 多表关联
多表关联:和单表关联类似,也是通过对原始数据进行一定的处理, 从其中挖掘出目标信息。问题描述输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表包地...
2019-02-22 23:14:30 457
原创 六个案例强化MR程序的开发和理解之 单表关联
之前举过的案例:数据去重、数据排序、平均成绩都是在数据上进行一些简单的处理,为进一步的操作打基础。“单表关联”这个实例要求从给出的数据中寻找所关心的数据,它是对原始数据所...
2019-02-21 22:34:31 143
转载 潭州教育受邀参加“2019新工科建设与发展高峰论坛”
2019年2月17-18日,潭州教育ITSTAR创始人Arry老师受邀参加由教育部新工科研究与实践专家组主办、复旦大学承办的“新工科建设与发展高峰论坛暨综合性高校新工科研...
2019-02-20 18:01:07 693
转载 大数据技术之Cloudera Manager安装
第1章ClouderaManager1.1cloudera manager的概念简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集...
2019-02-20 18:01:07 126
转载 Sqoop-hive的参数介绍
hive参数介绍参数说明–hive-delims-replacement <arg>用自定义的字符串替换掉数据中的\n, \r, and \01等字符–hiv...
2019-02-19 23:23:17 1589
原创 六个案例强化MR程序的开发和理解之 平均成绩
“平均成绩”是重温经典“WordCount”例子,是在基础上的微变化版,该实例主要就是实现一个计算学生平均成绩的例子。问题描述对输入文件中数据进行就算学生平均成绩。 输入...
2019-02-19 23:23:17 403
原创 六个案例强化MR程序的开发和理解之 数据排序
“ 数据排序”是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操...
2019-02-18 21:19:38 233
原创 六个案例强化MR程序的开发和理解之 数据去重
“数据去重”主要是为了掌握和利用 并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数统计大数据集上的数据种类个数、 从网站日志中计算访问地等这些看似庞杂的任...
2019-02-16 23:19:33 282
转载 Zookeeper完全分布式安装
(1)下载安装包https://archive.apache.org/dist/zookeeper/(2)上传安装包到Linux alt+p(3)解压$ tar -zxv...
2019-02-16 23:19:33 60
转载 学计算机的需不需要考研?看完就明白了
大咖讲学堂Subscribe今天近日,各省考研成绩陆续出炉说到考试成绩自然是有人欢喜有人忧网上各种高分大神!是不是觉得考研好像很容易啊?那么多人都能考高分,我相信我也可...
2019-02-15 21:35:41 6035
原创 新旧 Hadoop MapReduce 框架比对
昨天和前天讲的Hadoop Yarn 框架原理运行机制和Hadoop MapReduce框架问题今天对新旧 MapReduce 框架做详细的分析和对比,可以看到有以下...
2019-02-15 21:35:41 185
转载 数据采集篇:大数据技术之Flume
一、Flume简介1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。2)Flume基于流式架...
2019-02-15 21:35:41 586
转载 新 Hadoop Yarn 框架原理及运作机制
从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看,MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可...
2019-02-14 19:53:24 123
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人