自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (13)
  • 收藏
  • 关注

转载 MapReduce面试题参考答案(二)

原文作者:董西成 点击阅读原文 鉴于大量读者索要MapReduce相关面试题(二)的答案,今天决定将这几道题的参考答案发给大家,这些答案是我个人按照自己的理解写的,有些题目的答案可能并不完善,欢迎大家补充。题目1: MapReduce中排序发生在哪几个阶段?这些排序是否可以避免,为什么?答:一个MapReduce作业由Map阶段和Reduce阶段两部分组成,这两个阶段会对数据排序,...

2018-09-29 17:34:15 1680

转载 MapReduce面试题(二)

原文作者:董西成  点击阅读原文 今天再给大家介绍几道MapReduce相关的面试题,这些题目难度中上等,大家根据自己的需要参考一下。鉴于大家对上次发的MapReduce面试题反应冷淡,这次的题目不再给出参考答案,直到主动回复想要答案的人超过50人。题目1: MapReduce中排序发生在哪几个阶段?这些排序是否可以避免,为什么?题目2:编写MapReduce作业时,如何做到在Re...

2018-09-29 17:31:14 623 1

转载 MapReduce面试题参考答案(一)

原文作者:董西成  点击阅读原文 昨天给大家发了几道MapReduce面试题,今天将答案分享给大家。需要注意的是,这是面试题,不是笔试题,面试题重在表达和交流,所以答得好坏取决于你当时的表现,今天仅是简单地将答案关键点发个大家,如果你遇到了这些面试题,需要自行扩展和丰富这几个关键点。题目1:如果非要写mapreduce程序完成,则需要转化为两个maprecuce作业,第一个是wordc...

2018-09-29 17:22:14 3983

转载 MapReduce面试题(一)

原文作者:董西成  点击阅读原文 今天给大家介绍几道MapReduce相关的面试题,这些题目是我或者别人在面试过程中遇到的,看看你能回答出几道,明天将答案发放给大家。题目1:现有100TB的用户查询词(从搜索引擎日志中提取出来的),如何用MapReduce计算出现次数最多的K个查询词?如何对你设计的算法进行优化?考虑的优化点有:如果一个查询词出现次数非常多,产生的负载倾斜问题会不会导致...

2018-09-29 17:20:09 1285

转载 回顾·网易HBase实践

本文根据网易杭州研究院技术专家范欣欣在中国HBase技术社区第3届 MeetUp 杭州站分享的《网易HBase实践》编辑整理而成。今天主要从四个方面和大家分享HBase,HBase是整个Hadoop里面非常重要的组件,首先讲一下HBase在大数据领域的定位,第二个方面就是网易在HBase方面都有哪些应用场景,接下来讲一下HBase中经常会出现的RIT问题,以及用HBCK解决问题的套路。最后...

2018-09-27 15:39:20 464

转载 互联网公司大数据面试题

互联网公司大数据面试题参考指南以下面试题都是群里小伙伴提供的,现场真题(包含校招题)1.网易大数据面试题说说项目 Spark哪部分用得好,如何调优 Java哪部分了解比较好 聊聊并发,并发实现方法,volatile关键字说说 HashMap的底层原理 为什么要重写hashcode和equals 说说jvm 各个垃圾收集器运用在什么情形 jvm调优 说说io 为什么考虑转...

2018-09-24 23:57:31 335

转载 HBase原理之HBase Region合并解析

1.概述HBase表的基本单位是Region,日常调用HBase API操作一个表时,交互的数据也会以Region的形式进行呈现。前面介绍过HBase Region切分策略原理,一个表可以有若干个Region,本文主要介绍Region合并的一些问题和解决方法。 2.内容在分析合并Region之前,我们先来了解一下Region的体系结构,如下图所示:从图中可知,能够总结以下知...

2018-09-24 23:54:26 1443

原创 Windows平台安装配置Hadoop2.5.2

Windows平台安装配置Hadoop-2.5.2准备: 1. 电脑环境: Win10 安装jdk 配环境变量      2. Hadoop-2.5.2.tar.gz      3. hadooponwindows-master.zip一.解压安装hadoop-2.5.2   配置hadoop环境变量二.修改hadoop配置文件修改core-site.xml<configuration&gt...

2018-07-04 19:54:09 224

原创 linux平台编译eclipse的hadoop-2.5.2plugin插件

linux平台编译eclipse的hadoop-2.5.2plugin插件一.准备材料:1.  所需机器:Win+VMware+CentOS6.8(64位)+jdk1.7+Hadoop2.5.22.  eclipse-jee-mars-2-linux-gtk-x86_64.tar.gz3.  apache-ant-1.9.9-bin.tar.gz4.  hadoop2x-eclipse-plugi...

2018-07-04 19:49:41 362

原创 分布式配置zookeeper和hbase

首先jdk+免密登录+hadoop我的用户名字是zzti,  jdk-1.7,  centOS6.8,  hadoop2.5.21.          所有机器都上传zookeeper,hbase或上传一台然后scp Zookeeper mini2:/zzti2.       进入 zookeeper/confcp zoo_sample.cfg zoo.cfgvi zoo.cfg加入以下内容: d...

2018-07-04 19:45:39 70

八斗学院大数据第九期

第一阶段:这一阶段会学习MapReduce、Hive、HDFS、Yarn、Spark等计算框架的开发技术,以及Scala编程语言。通过项目实践,你能快速掌握这些技术,获得数据开发、数据挖掘、机器学习等职位必备的基本开发能力。 第二阶段:这一阶段会学习FLume、Kafka、Spark Streaming、Flink/Storm、Zookeeper、HBase等计算框架的开发技术,以及大数据体系内的数据采集和数据仓库理论思想和技术实现。通过项目实践,你能快速掌握这些技术,获得完整的大数据架构开发能力。 第三阶段:这一阶段会学习NLP文本相似度、中文分词、HMM算法、推荐算法CF、回归算法等应用与开发技术,整体认识商业项目-音乐推荐系统。使用海量真实数据对大数据平台和算法进行应用实践,快速掌握大数据行业具有巨大价值的核心技术。 第四阶段:这一阶段会学习分类算法、聚类算法、分类算法-决策树、分类算法-SVM、神经网络+深度学习,深化前3阶段技术能力,初入机器学习领域。通过对机器学习核心算法的强化练习,你将能完美胜任目前人才最紧缺的数据挖掘开发职位。

2019-06-15

数据结构严蔚敏_课后习题答案

目 录 第1章 绪论 ................................................. 1 第2章 线性表 ............................................... 5 第3章 栈和队列 ............................................. 14 第4章 串、数组和广义表 ..................................... 27 第5章 树和二叉树 ........................................... 34 第6章 图 ................................................... 44 第7章 查找 ................................................. 55 第8章 排序 ................................................. 66

2018-07-04

Navicat For MySQL11.0中文破解版

Navicat For MySQL11.0中文破解版,安全安装包可以放心下载安装,版本是11,界面比较好看,相对于之前版本没有了小框...

2018-07-04

大数据工程师全套学习资料最后部分

31.第三十一阶段 sparkSQL 32.第三十二阶段 spark Streaming 33.第三十三阶段 游戏项目 34.第三十四阶段 游戏项目 35.第三十五阶段 spark源码 36.第三十六阶段 spark流程 37.第三十七阶段 python 38.第三十八阶段 kmeans算法 39.第三十九阶段 机器学习

2018-07-03

大数据工程师全套学习资料第3部分

21.第二十一阶段 redis 22.第二十二阶段 日志监控 23.第二十三阶段 日志分析项目 24.第二十四阶段 广告推荐系统 25.第二十五阶段 scala函数式编程 26.第二十六阶段 scala函数式编程 27.第二十七阶段 akka 28.第二十八阶段 spark 29.第二十九阶段 spark rdd 30.第三十阶段 集群提交任务

2018-07-03

大数据工程师全套学习资料第2部分

11.第十一阶段 高可用集群hive 12.第十二阶段 辅助系统 13.第十三阶段 sqoop数据流分析项目 14.第十四阶段 京东订单分析项目 15.第十五阶段 推荐系统-移动流量 16.第十六阶段 hbase 17.第十七阶段 云计算项目 18.第十八阶段 storm 19.第十九阶段 storm通信机制集群 20.第二十阶段 kafka

2018-07-03

大数据工程师全套学习资料

淘宝上买的全套学习视频,这是1----10包括:以下 01.第一阶段 虚拟机与Linux基础 02.第二阶段 自动化部署高级文本命令 03.第三阶段 集群部署zookeeper 04.第四阶段 并发动态大数据基础机制 05.第五阶段 rpc高性能框架等 06.第六阶段 hadoop 07.第七阶段 HDFS 08.第八阶段 mapreduce 09.第九阶段 离线计算系统实战 10.第十阶段 离线计算系统实战

2018-07-02

linux命令___vi和Vim详解

详细讲述了linux的vi和vim相关的命令,以及一些高级用法

2018-07-02

大数据教材:spark原理算法实例

第1章从Hadoop到Spark 第2章体验Spark 第3章Spark原理 第5章Spark算法设计 第4章RDD算子 第6章善用Spark

2018-07-02

Google论文

Google的3篇大数据论文Google File System ,HDFS,BigTable原文,并且有翻译过的对应的中文论文三篇

2018-07-02

单机Hadoop配置安装

单机配置hadoop的详细教程,,亲自实验后发布,包教包会,你值得拥有

2018-04-06

hadoop伪分布式安装教程

详细讲解hadoop伪分布式的安装步骤,让你一下学会安装自己的hadoop集群

2018-04-06

大数据学习路线规划

选择正确的学习路线,能够事半功倍,该文档告诉你应该怎样一步步从入门到精通来学习大数据..

2018-04-06

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除