大数据
张伯清
生钱的有效途径不是节流,而是开源。
展开
-
大数据开发资料大集合
https://blog.csdn.net/qq_43701760/article/details/89853420原创 2019-11-06 14:40:56 · 220 阅读 · 0 评论 -
hive基础知识及性能优化(面试必备)
转载一:https://blog.csdn.net/u011331430/article/details/79038103转载二:https://blog.csdn.net/yu0_zhang0/article/details/81776459转载三:https://www.cnblogs.com/smartloli/p/4356660.html...转载 2019-06-05 13:54:57 · 465 阅读 · 0 评论 -
Spark学习一:初识spark(系统学习)
https://blog.csdn.net/wangzq2213/article/details/81034480转载 2019-05-31 09:20:47 · 463 阅读 · 0 评论 -
hive HQL查询语句的使用
https://blog.csdn.net/m0_37324825/article/details/80485002转载 2019-05-28 10:21:25 · 333 阅读 · 0 评论 -
Hive入门及常用指令
转载:https://www.cnblogs.com/gcczhongduan/p/5315099.htmlhttps://blog.csdn.net/ddydavie/article/details/80667727转载 2019-05-28 09:46:05 · 143 阅读 · 0 评论 -
Mr 结合yarn的运行流程(运行逻辑)
1、为什么要使用YARN?为了提升集群的利用率、资源统一管理, 使用YARN为上层应用提供统一的资源管理和调度的平台。2、YARN的优势? 资源的统一管理和调度:集群中所有节点的资源(内存、CPU、磁盘、网络等)抽象为Container。计算框架需要资源进行运算任务时需要向YARN申请Container, YARN按照特定的策略对资源进行调度进行Container的...原创 2019-05-28 09:23:28 · 782 阅读 · 0 评论 -
Hdfs启动过程及文件读写流程(精简专业版本)
一.Hdfs启动过程:HDFS的启动过程分为四个阶段:第一阶段:NameNode 读取包含元数据信息的fsimage文件,并加载到内存;第二阶段:NameNode读取体现HDFS最新状态的edits日志文件,并加载到内存中第三阶段:生成检查点,SecondaryNameNode将edits日志中的信息合并到fsimage文件中第四阶段:进入安全模式,检查数据块的完整性...原创 2019-05-28 09:17:50 · 811 阅读 · 0 评论 -
Scala基础语法大全总结(一)
转载:https://blog.csdn.net/qq_37142346/article/details/80977744转载 2019-05-30 18:08:51 · 223 阅读 · 0 评论 -
什么是sqoop
转载:https://www.cnblogs.com/xing901022/p/5920891.htmlsqoop的使用说明:https://help.aliyun.com/document_detail/28133.html转载 2019-05-30 17:11:18 · 199 阅读 · 0 评论 -
oozie4.3.0的安装与配置(hadoop2.7.1分布式集群环境)
一.oozie4.3.0的的编译需要依赖mavenhttps://www.jianshu.com/p/30aa16a813a7linux中执行java或者mvn命令提示没有权限解决办法:$ chmod a+x /var/jenkins_home/jdk1.8.0_191/bin/java$ chmod a+x /var/jenkins_home/apache-maven-3.3....原创 2019-05-23 11:06:17 · 303 阅读 · 0 评论 -
最近经历的一些大数据(Spark/Hadoop)面试题
转载:https://blog.csdn.net/lxhandlbb/article/details/54599512转载 2019-05-27 10:56:15 · 126 阅读 · 0 评论 -
hive 的分区和分桶
转载:https://yq.aliyun.com/articles/513814#Hive中分区表及陷阱https://blog.csdn.net/qq_35180983/article/details/82902943转载 2019-05-27 10:54:22 · 140 阅读 · 0 评论 -
大数据Hive 面试以及知识点
转载:https://blog.csdn.net/haohaixingyun/article/details/52819588转载 2019-05-27 10:36:12 · 526 阅读 · 0 评论 -
Linux中虚拟机 网络不可用解决方案
注意ip之间的对应关系第一步:第二步:第三步:原创 2019-05-22 19:33:00 · 6332 阅读 · 0 评论 -
hadoop2.7 集群分布式环境 Hbase的安装
转载:https://blog.csdn.net/u014454538/article/details/83625554转载 2019-05-13 16:47:40 · 135 阅读 · 0 评论 -
hadoop2.71 分布式高可用(HA机制下的,并且使用自己安装的zookeeper的集群)集群 Hbase1.2.6安装
转载:https://blog.csdn.net/qq_34758475/article/details/84337320(亲测有效)hbase集群规划解压hbase将hbase-1.2.8-bin.tar.gz解压到/opt/modules/soft目录下:1.配置hbase-env.sh文件:[root@master conf]# vi hbase...原创 2019-05-17 16:08:23 · 249 阅读 · 0 评论 -
Spark 学习: spark 原理简述与 shuffle 过程介绍
转载:https://blog.csdn.net/databatman/article/details/53023818转载 2019-05-28 16:23:19 · 349 阅读 · 0 评论 -
简单搞定Shuffle机制运行原理(shuffle流程, Combiner合并)
转载:https://blog.csdn.net/github_36444580/article/details/752089922.4.1概述1)mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;2)shuffle:洗牌、发牌(核心机制:数据分区、排序、缓存);3)具体来说:就是将ma...原创 2019-05-28 16:20:44 · 927 阅读 · 0 评论 -
hive MapReduce详解
转载:https://blog.csdn.net/fanfan_gaolin/article/details/88576426转载 2019-06-12 15:37:45 · 1047 阅读 · 0 评论 -
hive之经典sql面试题
https://blog.csdn.net/qq_41568597/article/details/84309503转载 2019-07-17 11:20:14 · 2243 阅读 · 1 评论 -
Spark面试题
https://blog.csdn.net/Lwj879525930/article/details/82559596转载 2019-07-29 08:58:44 · 202 阅读 · 0 评论 -
hadoop面试100道收集(带答案)
https://blog.csdn.net/kingmax54212008/article/details/51257067转载 2019-07-24 10:26:26 · 479 阅读 · 0 评论 -
Hbase中的filter使用
https://blog.csdn.net/lr131425/article/details/72676254转载 2019-07-11 10:28:59 · 406 阅读 · 0 评论 -
Kylin介绍(目前仅支持Hbase)
https://www.cnblogs.com/honey01/p/8351145.html转载 2019-07-11 10:27:21 · 3828 阅读 · 0 评论 -
sqoop集群的搭建
这篇博客理由sqoop版本的下载地址:https://www.jianshu.com/p/a088713ba26bsqoop集群的搭建转载:https://blog.csdn.net/qq_33247435/article/details/84316691转载第二篇:https://www.jianshu.com/p/a088713ba26bsqoop 连接mysql的各种错误...原创 2019-06-11 15:17:45 · 642 阅读 · 0 评论 -
大数据工程师(运维)面试系列
转载:https://blog.csdn.net/BlackEnn/article/details/53189854转载 2019-06-21 10:00:09 · 1599 阅读 · 0 评论 -
Hive的常用三种文件存储格式详解
转载:https://blog.csdn.net/qq_26442553/article/details/79313898三者的存储格式的压缩对比和查询速度对比):https://blog.csdn.net/qq_31807385/article/details/84796880转载 2019-06-05 08:58:29 · 934 阅读 · 0 评论 -
大数据处理基本过程
转载:https://blog.csdn.net/qq_39438729/article/details/80211531转载 2019-06-05 08:53:40 · 349 阅读 · 0 评论 -
Hive压缩说明
转载:https://www.2cto.com/kf/201611/566909.html转载 2019-06-05 08:47:26 · 144 阅读 · 0 评论 -
大数据框架项目选型(Hadoop,Spark等5种)
转载链接:https://blog.csdn.net/yimingsilence/article/details/55517426转载 2019-06-03 08:55:05 · 378 阅读 · 0 评论 -
解决java.lang.SecurityException: Invalid signature file digest for Manifest main attributes(运行jar包时出现)
转载好文章:https://www.jianshu.com/p/cd1f1b33a41a原创 2019-06-13 15:14:04 · 641 阅读 · 0 评论 -
Spark-2.2.0安装和部署(分布式集群搭建,亲测可用)
转载好文章(安装spark集群的前提一定要安装scala):https://blog.csdn.net/weixin_36394852/article/details/76030317注意:此命令只复制文件夹 目录下的内容,不直接将目录及内容复制到其他主机rsync -av /usr/scala-2.11.7/ SparkWorker2:/usr/scala-2.11.7/scp命令...原创 2019-06-06 17:06:04 · 364 阅读 · 0 评论 -
Hadoop的各个web界面的地址
1、HDFS界面:http://potter2:50070查看NameNode状态;该端口的定义位于core-default.xml中,可以在hdfs-site.xml中修改;如果通过该端口看着这个页面,以为着NameNode节点是存活的。1、HDFS页面:500702、YARN的管理界面:80883、HistoryServer的管理界面:198884、Zookee...原创 2019-05-13 10:30:54 · 577 阅读 · 0 评论 -
通俗理解YARN运行原理
转载:http://www.imooc.com/article/257942转载 2019-05-13 09:51:52 · 235 阅读 · 0 评论 -
Hive简介
转载:https://www.cnblogs.com/qingyunzong/p/8707885.html#_label0转载 2019-05-17 09:48:54 · 133 阅读 · 0 评论 -
Zookeeper的功能以及工作原理
1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户2.ZooKeeper提供了什么?1)文件系统2)通知机制3.Zookeeper文件系统每个子目录项如 ...转载 2019-04-24 10:34:08 · 164 阅读 · 0 评论 -
HDFS Namenode启动过程
HDFS Namenode启动过程Namenode保存文件系统元数据镜像,namenode在内存及磁盘(fsimage和editslog)上分别存在一份元数据镜像文件,内存中元数据镜像保证了hdfs文件系统文件访问效率,磁盘上的元数据镜像保证了hdfs文件系统的安全性。namenode在磁盘上的两类文件组成:fsimage文件:保存文件系统至上次checkpoint为止目录和文件元数据...转载 2019-04-24 09:28:59 · 232 阅读 · 0 评论 -
CentOS 7下搭建 Hadoop2.7分布式集群环境(亲测有效)
真实企业中搭建大数据平台Hadoop的分布式集群环境搭建 ,其实是和我的是大同小异,只不过我是虚拟机:看这位仁兄(有五台服务器,看公司情况和需求):https://my.oschina.net/feinik/blog/1621000环境:CentOS7虚拟机三台java8、sshHadoop: hadoop-2.7.1一、准备工作1.修改三台虚拟机主机名master、sl...原创 2019-04-18 16:11:59 · 575 阅读 · 0 评论 -
linux系统ssh免密登录配置(亲测有效,很easy)
这个只有子机器免密码登录生效 ,想本机和两台子机器免密码登录生效 请转到我的下一篇博客:https://blog.csdn.net/qq_40095003/article/details/89376654前言:只需要将第一台主机的公钥发到其他子机器节点就ojbk了linux主机配置ssh免密钥登录,具体配置如下:1、执行命令ssh-keygen -t rsa,生成公钥和私钥(具体步...原创 2019-04-18 10:41:23 · 427 阅读 · 0 评论 -
云计算的三种模式:IaaS、PaaS和SaaS理解
IaaS: Infrastructure-as-a-Service(基础设施即服务) 第一层叫做IaaS,有时候也叫做Hardware-as-a-Service,以前如果你想在办公室或者公司的网站上运行一些企业应用,你需要去买服务器,或者别的高昂的硬件来控制本地应用,让你的业务运行起来。 但是现在有IaaS,你可以将硬件外包到别的地方去。IaaS公司会提供场外服务器,存储和网络硬件,你可...原创 2019-04-18 09:34:46 · 460 阅读 · 0 评论