大数据
文章平均质量分 92
大数据老哥
这个作者很懒,什么都没留下…
展开
-
大数据框架发展史
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。 .原创 2021-10-14 17:24:38 · 1731 阅读 · 0 评论 -
面试了N多家总结的Hadoop15个高频面试
一、 你说你深刻理解MR的工作流程,你给我讲一下吧1. 在客户端执行submit()方法之前,会先去获取一下待读取文件的信息 2. 将job提交给yarn,这时候会带着三个信息过去(job.split(文件的切片信息),jar.job.xml) 3. yarn会根据文件的切片信息去计算将要启动的maptask的数量,然后去启动maptask 4. maptask会调用InPutFormat()方法区HDFS上面读取文件,InPutFormat()方法会再去 调用 RecordRead()原创 2020-11-26 23:28:40 · 6482 阅读 · 25 评论 -
快速入门Docker(1)——介绍及安装
最近在项目需要依赖于Docker,但是博主之前没有接触出过这个,所以小白方式来给大家分享,如果有哪些不足的地方可以在留言区提出来。看完本篇文章可以掌握以下内容:了解Docker为什么会出现了解Docker历史了解Docer能干嘛完成Docer安装一、Docker为什么会出现 一款产品从开发到上线,从原创 2020-11-17 22:17:36 · 4063 阅读 · 16 评论 -
快速入门Flink(2)——Flink集群环境搭建(3台节点 建议收藏)
上一篇博客给大家介绍了一下Flink,今天大家带来Flink集群环境搭建。(建议收藏)一、Flink支持多种方式搭建(local,standalone,yarn)local( 本地) ——单机模式, 一般不使用standalone ——独立模式, Flink 自带集群,开发测试环境使用yarn——计算资源统一由 Hadoop YARN 管理,生产环境测试1.1准备工作JDK1.8以上(配置JA.原创 2020-08-16 19:40:33 · 13580 阅读 · 51 评论 -
在Linux安装Redis
Redis 安装前提:找到一个虚拟机这台虚拟机必须连接外网ping www.baidu.com1.上传2.解压tar -zxvf redis-3.2.8.tar.gz -C ../servers/3.准备编译的环境cyum -y install gcc-c++安装tclyum -y install tcl4.进行编译进入安装目录...原创 2020-03-12 10:49:22 · 7452 阅读 · 27 评论 -
Yarn资源调动
1.Yarn介绍Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。Hadoop1.0的任务调度流程Hadoop2.0的变化2.Yarn三大组件介绍 1.ResourceMan...原创 2020-03-10 19:35:52 · 7635 阅读 · 26 评论 -
Spark使用idea和shell计算WordCount
1.使用shell计算WordCount 1.1启动sparkbin/spark-shell 1.2创建个文件里面放值你要计算的文件 mkdir input 1.3数据计算的命令sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_...原创 2020-02-28 17:51:01 · 8446 阅读 · 0 评论 -
Hbase 解答题(理论知识面试必问)
1.Hbase 的基本介绍HBase 时建立在hdfs之上的数据库 不支持join等SQL事务等繁杂的操作 支持的数类型:byte[] 依靠横向扩展,一个表可以有上十亿行,上百万列 面向列族存储和权限控制 对于空(null)的列,并不占用存储空间,是一个稀疏表2.HBASE的使用场景 (12个字)海量数据 精确查询 快速返回3.Hbase 和hadoop之间的关系...原创 2019-12-17 17:46:38 · 11199 阅读 · 0 评论 -
HBase三个重要机制
HBase三个重要机制1、flush机制 hbase.regionserver.global.memstore.size: 默认;堆大小的40%regionServer的全局memstore的大小(多个CF的memstore-多个region),超过该大小会触发flush到磁盘的操 作,会阻塞客户端读写flush将所有的memstore全部flush. hbase不建议配置过多列族...原创 2019-12-16 22:02:50 · 10297 阅读 · 0 评论 -
Region的管理
前提:一个region只能分配给一个region server1、master记录了当前有哪些可用的region server。以及当前哪些region分配给了哪些region server,哪些region 还没有分配。2、当需要分配的新的region,并且有一个region server上有可用空间时,master就给这个region server发送一个装 载请求,把region分配...原创 2019-12-16 21:55:22 · 10994 阅读 · 0 评论 -
Hbase的写入和读取过程
读取过程:前提: 什么是meta表? meta表述hbase系统自带的一个表。里面存储了hbase用户表的元信息。元信息为:meta表内记录一行数据是用户表一个region的start key 到endkey的范围。meta表存在什么地方?meta表存储在regionserver里。 具体存储在哪个regionserver里?zookeeper知道。写请求过程1...原创 2019-12-16 21:49:32 · 10687 阅读 · 0 评论 -
Hbase 常用的shell命令(小白也能看懂)
dfdffdf原创 2019-12-13 08:44:17 · 12134 阅读 · 0 评论 -
Hbase 笔记
由于csdn不支持 思维导图 所以只能发图片了 给大家带来不便若想要笔记请下载//download.csdn.net/download/qq_43791724/12029435原创 2019-12-12 21:25:39 · 12039 阅读 · 2 评论 -
Hbase Java API 的使用
1.创建一个maven项目2.导入相应的jar包 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repo...原创 2019-12-12 11:15:52 · 12162 阅读 · 0 评论 -
Failed to get result within timeout, timeout=60000ms
原因是你本机上设置别名与Linux对应IP的别名不一致解决方法:我的Linux上是node01 我的本机上是 hadoop01 所有导致别名不一致 连接不上修改本机的别名:C:\Windows\System32\drivers\etc编辑host 将里面的ip与别名设置一致即可...原创 2019-12-12 08:33:15 · 15581 阅读 · 0 评论 -
HBase集群搭建
1.下载相应的jar包所有关于CDH版本的软件包下载地址如下http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz2.上传到Linux并解压tar zxvf hbase-1.2...原创 2019-12-11 08:28:23 · 11013 阅读 · 1 评论 -
impala 与hive有啥不同
Impala没有MapReduce进行并行计算impala吧整个查询分成一个执行计划树c++ 特性重大使用内存采用啦的方式内存放不下数据时,版本1.0.1是直接返回错误 使用自己调度 查询过程中,没有容错逻辑 适用于实时数据分析hive使用 MapReduce进行并行计算 ,一连串的MapReduce任务 采用推的方式 内存放不下所有数据,则会使用外存...原创 2019-12-10 19:52:48 · 11447 阅读 · 0 评论 -
impala 内部命令与外部命令
外部命令:impala-shell –h 可以帮助我们查看帮助手册impala-shell –r 刷新impala元数据impala-shell –f ``文件路径`` 执行指的的sql查询文件。impala-shell –i 指定连接运行 impalad 守护进程的主机。impala-shell –o 保存执行结果到文件当中去。内部命令connect hostn...原创 2019-12-10 18:05:38 · 11185 阅读 · 0 评论 -
impala 安装部署
1.下载jar包(官方)http://archive.cloudera.com/cdh5/repo-as-tarball/5.14.0/cdh5.14.0-centos6.tar.gz2.上传解压注意:由于jar的大小比较大若没有硬盘大小,那么大建议添加一块新的大小要大于12Gtar -zxvf cdh5.14.0-centos6.tar.gz -C .3.安装n...原创 2019-12-10 17:58:47 · 12008 阅读 · 0 评论 -
ZooKeeper选举机制
全新集群选举假设目前有5台服务器,每台服务器均没有数据,它们的编号分别是1,2,3,4,5,按编号依次启动,它们的选择举过程如下:服务器1启动,给自己投票,然后发投票信息,由于其它机器还没有启动所以它收不到反馈信息,服务器1的状态一直属于Looking。 服务器2启动,给自己投票,同时与之前启动的服务器1交换结果,由于服务器2的编号大所以服务器2胜出,但此时投票数没有大于半数,所以两个服...原创 2019-12-09 21:33:34 · 11456 阅读 · 0 评论 -
zookeeper的java api 使用
相应的maven jar包<dependencies> <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifactId> &...原创 2019-12-09 17:11:35 · 11663 阅读 · 0 评论 -
zookeeper安装
1.上传并解压rztar -zxvf zookeeper-3.4.5-cdh5.14.0.tar.gz -C ../servers/下载地址:CDH版本:http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.14.0.tar.gzapache版本:https://archive.apache.org/dist/zoo...原创 2019-12-09 08:42:52 · 11465 阅读 · 0 评论 -
hue配置MySQL页面没有效果
1.确保你的hue.ini 修改完毕2.你配的的节点启动了MySQL3.页面效果解决方案 1.进人hue.ini2.找的MySQL相关的配置属性原因是你没有吧注释去掉MySQL的去掉重启就好了...原创 2019-12-08 18:26:47 · 12362 阅读 · 0 评论 -
hue 配置MySQL
1.进入hue的hue.ini 进行修改cd /export/servers/hue-3.9.0-cdh5.14.0/desktop/confvim hue.ini2.修改MySQL相关的信息大约在1548行[[[mysql]]] nice_name="My SQL DB" engine=mysql host=node-1 por...原创 2019-12-08 18:20:08 · 12001 阅读 · 0 评论 -
hue 搭建Hive
1.修改hue.inicd /export/servers/hue-3.9.0-cdh5.14.0/desktop/conf vim hue.ini [beeswax] hive_server_host=node-1 hive_server_port=10000 hive_conf_dir=/export/servers/hive/conf server_conn_tim...原创 2019-12-06 19:17:35 · 13268 阅读 · 0 评论 -
hue配置HDFS
1.修改hadoop中路径 (core-site.xml)cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoopvim core-site.xml <property><name>hadoop.proxyuser.root.hosts</name><value>*</value&...原创 2019-12-06 18:21:33 · 14194 阅读 · 0 评论 -
hue 环境搭建
1.上传压缩包rz2.解压到制定的目录tar -zxvf hue-3.9.0-cdh5.14.0.tar.gz -C ../servers/3.联网安装需要编译依赖的包yum install -y asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ kr...原创 2019-12-06 18:09:08 · 13015 阅读 · 0 评论 -
azkaban 安装
1.上传azkaban 到指定路径rz2.解压到指定的路径tar -r -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz -C ../../servers/3.修改配置文件1.1.0 修改azkaban.propertiescd /export/servers/azkaban-solo-server-0.1.0-SNAP...原创 2019-12-06 17:49:03 · 13249 阅读 · 0 评论 -
Flume 基本使用
1.通过telnet 进行数据的传输 1.1.0 创建一个文集夹mkdir tmpconf 1.1.1 创建一文件并必须是(.conf)结尾touch tmpconf/a1.conf1.1.2添加配置信息# 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1# 描述和配置source组...原创 2019-12-05 20:37:34 · 12982 阅读 · 0 评论 -
-bash: telnet: command not found
原因是没有安装-telnet yum -y install telnet原创 2019-12-05 17:45:04 · 13789 阅读 · 0 评论 -
Flume环境搭建
上传压缩包(apache-flume-1.8.0-bin.tar.gz)rz解压到指定的目录 (注意若是在当前目录就不需要C)tar zxvf apache-flume-1.8.0-bin.tar.gz -C ../servers进入到flume中修改配置文件 1.cd /export/servers/apache-flume-1.8.0-bin/conf/ 2....原创 2019-12-05 17:13:28 · 13032 阅读 · 0 评论 -
HDFS新增结点
1.复制出一台新的虚拟机 2.修改ip和mac地址vim /etc/udev/rules.d/70-persistent-net.rulesvim /etc/sysconfig/network-scripts/ifcfg-eth0 3. 关闭防火墙 selinux关闭防火墙service iptables stop关闭selinuxvim /etc/se...原创 2019-11-06 19:11:10 · 14260 阅读 · 0 评论 -
HDFS API 使用②
由于为了减少代码的重复性所以我选择写2篇的第一篇是环境搭建 链接为:https://blog.csdn.net/qq_43791724/article/details/102895900初始化 public static String url="hdfs://hadoop01:8020"; FileSystem fileSystem =null; Configu...原创 2019-11-04 15:18:35 · 13059 阅读 · 0 评论 -
HDFS API 使用①
使用开发软件 创建一个maven项目 导入响应的jar包 <properties> <hadoop.version>2.6.0-cdh5.15.1</hadoop.version> </properties> <repositories> <reposito...原创 2019-11-04 14:50:17 · 13564 阅读 · 1 评论 -
Hadoop搭建三台虚拟机
分布式环境搭建一:上传压缩包并加压解压tar -zxvf hadoop-2.6.0-cdh5.14.0.tar.gz -C ../servers/二:查看Hadoop压缩方式cd /export/servers/hadoop-2.6.0-cdh5.14.0 bin/hadoop checknative...原创 2019-10-31 18:16:00 · 15520 阅读 · 0 评论 -
Hadoop 环境搭建1
配置hadoop 1.1上传hadoop1.2解压到指定目录tar -zxvf hadoop-2.7.3.tar.gz -C ../install/2.修改环境变量vim /etc/profile.d/hadoop.sh export HADOOP_HOME=/...原创 2019-10-24 17:35:49 · 13120 阅读 · 5 评论