大数据
文章平均质量分 69
柯南爱上指针
·
展开
-
搭建hadoop集群环境准备centOS系统
超详细的linux系统的安装!原创 2017-10-29 10:21:46 · 529 阅读 · 1 评论 -
Cannot create encoder for Option of Product type, because Product type is represented as a row
点我查看原文使用sparksql会遇到下面错误:Cannot create encoder for Option of Product type, because Product type is represented as a row, and the entire row can not be null in Spark SQL like normal databases. You ...转载 2019-02-28 11:32:14 · 716 阅读 · 0 评论 -
storm定时任务使用实例
作者:剪刀手麦小孩 来源:CSDN 原文:https://blog.csdn.net/maixiaohai/article/details/51685581版权声明:本文为博主原创文章,转载请附上博文链接!--------------------- 1.背景需要在bolt中定时执行某些操作2.方法都是利用系统自带的定时tuple来完成,相当于系统自动发一个带有特殊标记的...转载 2019-01-17 19:44:24 · 202 阅读 · 0 评论 -
网易杭研大数据面试题
一面:hdfs读写过程MR原理讲项目 balabala...差不多40几分钟吧二面:讲项目,项目一个点一个点的问。主要讲的是PV、UV的统计、其中设计到rowkey冲突怎么处理。接着讲项目balabala差不多40多分钟吧HR面(一个男面试官):自我介绍!然后问项目(当时怀疑他是不是做技术的)balabala接着为什么选择网易?你还投了哪些公司?...原创 2018-11-21 21:33:09 · 270 阅读 · 0 评论 -
一点资讯大数据面试题
本人错过了秋招,到了十一月,疯狂的投补招。。。。好多公司简历都挂了十一月九日电话面试,十一月十二日北京现场面试。电话一面:1、自我介绍hdfs架构、原理2、MR原理3、执行MR的过程中,使用了哪些函数?4、shuffer版本迭代的过程中更新了什么?5、kafka原理,从生产者生产产品到消费者消费过程是怎样的?5、flume框架的原理,soure有哪些?sink有哪些?6、h...原创 2018-11-21 20:50:54 · 4471 阅读 · 12 评论 -
kafka的分布式安装
0、选择mini1、mini2、mini3三台主机安装kafka,以及kafka的安装包 kafka_2.11-0.10.0.1.tgz1、准备zookeeper略2、jdk安装略3、上传文件到集群上略4、解压到 /usr/local/kafka ,并且分发到其他两台机器上去#解压文件tar -zxvf kafka_2.11-0.10.0.1.tgz ...原创 2018-07-29 20:41:36 · 191 阅读 · 0 评论 -
Map输入切片和记录的过程
MapReduce在执行map()函数之前,还做了大量的工作,例如数据的切片,将切片生成键值对传给map()函数等等,在执行map()之前做了很多的事情,今天就记录一下输入数据的切片和记录。(tips:由于也是刚刚学,看了权威指南,分享一下心得,有什么问题希望大家指正) 1、简单介绍一下切片,记录以及map()方法之间的联系 一个输入的切片(split)就是一个...原创 2018-06-14 22:11:57 · 888 阅读 · 0 评论 -
MapRduce特性:二次排序
在学习二次排序的过程中,觉得还是很复杂的,写一篇博客分享一下。一、什么是二次排序? 二次排序就是对value值进行排序(本身value值是不会排序的)二、例子分析 需求: 求1920-2020年100年间每年气温的最大值。 问题分析: 1、这100年的数据每年的气温数据量十分的大 2、如果在每次在reduce里面对整个气温找最大值的话很消耗...原创 2018-05-30 19:05:04 · 478 阅读 · 0 评论 -
MapReduce中shuffle和排序(转)
我觉得这篇博客写的很好,hadoop权威指南没有讲清楚的、没看懂的这个上面都讲的很详细,收藏一下!点击打开原文MapReduce简介在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。一个MapReduce的大致数据流如下图:...转载 2018-06-12 19:19:51 · 2384 阅读 · 0 评论 -
HA高可用配置详解
转载:点击打开链接1 Hadoop HA架构详解1.1 HDFS HA背景HDFS集群中NameNode 存在单点故障(SPOF)。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启动。影响HDFS集群不可用主要包括以下两种情况:一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用;二是计划内的...转载 2018-06-03 15:33:58 · 4785 阅读 · 0 评论 -
hbase完全分布式环境搭建
1、环境准备linux系统:centos6.6java环境: jdk1.8.0_144hadoop环境:hadoop-2.4.1zookeeper环境:zookeeper-3.4.6如果有环境准备问题,请参考下面文章linux环境:点击打开链接hadoop搭建:点击打开链接zookeeper搭建:点击打开链接2、上传hbase安装包3、解压tar -zx...原创 2017-10-31 19:41:55 · 2990 阅读 · 0 评论 -
搭建hadoop集群(超详细)
1、首先准备好三台虚拟机,可以参考如下链接搭建三个虚拟机点击打开链接2、首先关闭所有机器的防护墙和selinux 永久关闭防火墙:chkconfig --level 35 iptables off永久关闭selinux: vim /etc/selinux/config 找到SELINUX 行修改成为:SELINUX=disabled: so...原创 2017-10-29 11:23:41 · 807 阅读 · 0 评论 -
hive行转列以及列转行(面试必问)
点我进入原文1.行转列1.1 问题引入:如何将a b 1,2,3c d 4,5,6变为:a b 1a b 2a b 3c d 4c d 5c d 61.2...转载 2019-08-17 14:30:46 · 337 阅读 · 0 评论