![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HPE大数据学习
文章平均质量分 74
李功林
这个作者很懒,什么都没留下…
展开
-
hive3.1.2 - hadoop3.2.1 搭建
前言此前我写了一篇关于hive 1.2.1版本搭建的教程,参看https://blog.csdn.net/qq_45415730/article/details/106128376。本篇主要讲基于hadoop3.x hive的搭建,中间的一些步骤与上篇教程一样,大家可以先看下上面链接,本篇主要描述hive3.x与历史版本搭建的不同之处。本地模式用的较少就不复赘述,直接从local模式开始,远程模式与历史版本无异,本篇也不再赘述。一、local模式1.修改hive-site.xml<c原创 2020-05-15 10:48:55 · 897 阅读 · 2 评论 -
剖析Spark
SparkSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapR...原创 2018-11-13 10:25:57 · 250 阅读 · 0 评论 -
spark原理之专用术语和运行流程
目录spark专用术语1、Master:2、Worker3、Application4、Driver5、Executor:执行器6、RDD:弹性分布式数据集7、窄依赖8、宽依赖9、有向无环图10、DAGScheduler:有向无环图调度器11、TaskScheduler:任务调度器12、Job:作业13、Stage:调度阶段15、Task:...原创 2018-11-15 17:28:56 · 171 阅读 · 0 评论 -
scala和java的区别
目录Scala的特性:scala和java的区别1.变量的声明2.函数的声明3.数据类型4.数组5.未完待续Scala的特性:再讲Scala与java的区别之前我们先了解一下Scala有六大特性:java和scala可以无缝混编(都是基于JVM) 类型推测(不必指定类型,自动推测类型) 支持并发和分布式(Actor) 特质:trait(集结了java中...原创 2018-11-12 15:12:22 · 14612 阅读 · 1 评论 -
浅析源码,看Spark的资源调度和任务调度
目录 Spark原理之资源调度和任务调度Worker注册部分的源码分析worker注册的流程:关于去重结论Driver Application问题:Spark原理之资源调度和任务调度Spark资源调度涉及到三个集合:集合 类型 workers val workers = new HashSet[WorkerInfo] waitin...原创 2018-11-16 08:24:37 · 170 阅读 · 0 评论 -
HBase搭建
参考本教程需要前提环境:配置好jdk 关闭防火墙 时间同步 免秘钥登录 修改hosts文件 配置并启动HDFS 下载HBase安装包修改HBase安装目录下的conf下的hbase-site.xml <configuration> <property> <name>hbase.cluster.distributed...原创 2018-11-22 11:09:22 · 135 阅读 · 0 评论 -
集群搭建(引用)
高可用spark集群搭建Hive搭建原创 2018-11-26 17:00:10 · 130 阅读 · 1 评论 -
hive搭建
搭建Hive本地方式(内嵌derby)步骤解压修改安装包内conf文件夹下的hive-default.xml.template,并重命名为hite-site.xml<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <v...原创 2019-04-10 20:09:06 · 158 阅读 · 0 评论 -
Spark算子详解
目录Spark常用算子详解1. mapPartitions2. mapPartitionsWithIndex3. getNumPartitions4. partitions5. foreachPartition6. coalesce7. repartition8. union,zip,join9. zipWithIndex,zipWithUniqueId...原创 2018-11-13 08:25:44 · 525 阅读 · 0 评论 -
spark在yarn上运行报错:Yarn application has already ended
spark在yarn上运行报错:Exception in thread "main" org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. at org.apache.s...原创 2018-11-01 19:18:56 · 5960 阅读 · 3 评论 -
HA(高可用)完全分布式搭建步骤:
集群规划 NN-1 NN-2 DN ZK ZKFC JNN node01 * * ...原创 2018-10-11 23:30:54 · 973 阅读 · 0 评论 -
局域网下连接其他电脑的HDFS集群
第一步:参看我的局域网下用其他电脑连接VM虚拟机方法这个是必须的,如果你会了那可以跳过第二步:学会怎么配置虚拟网路之后我们看一下这个配置文件hdfs-site.xml&amp;lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&amp;gt;&amp;lt;?xml-stylesheet type=&a原创 2018-10-14 17:26:14 · 1835 阅读 · 1 评论 -
HDFS总结
原创 2018-10-15 22:24:58 · 120 阅读 · 0 评论 -
从零开始搭建HDFS集群之虚拟机安装及网络配置
Linux虚拟机的安装下载VMware许可证安装虚拟机配置静态Ip下载VMware我用的是VMware14版本,可以去官网下载,也可以点击链接VMware14安装包.exe许可证安装完VMware后需要许可证,点击这里下载:VMware许可证 安装虚拟机这里用的虚拟机是centos6.5 从网上下载一个镜像,安装虚拟机的详细过程后续更新安装好虚拟机之后需要配置静态Ip配置静态Ip...原创 2018-10-15 22:44:25 · 711 阅读 · 0 评论 -
HDFS分布式集群搭建错误汇总
完全分布式集群搭建错误汇总原创 2018-10-15 23:01:08 · 316 阅读 · 0 评论 -
HDFS集群的搭建
搭建集群的首先要明白一个问题: 角色=进程搭建集群的模式有三种: 伪分布式 在一台服务器,启动多个进程,分别表示各个角色 完全分布式: 在多台服务器上,每台服务器启动不同的角色进程,这些服务器组成HDFS集群 高可用的完全分布式: 涉及到NameNode负载过重可能崩溃的问题,将NameNode建立一个备胎以提高其可用性 集群搭建步骤 伪分布式集群搭建方法: 1...原创 2018-10-09 23:41:48 · 247 阅读 · 0 评论 -
分布式存储思维导图
原创 2018-10-10 09:12:21 · 657 阅读 · 0 评论 -
两个案例带你理解分布式的计算思想
我们先看一下这个需求: 需求1: 将1T文件排序,这个文件的每一行都是一个数字 环境: 一台服务器 64G内存 看到这个需求,我们心中第一个想法是将大文件切割成小文件,然后小文件进行内部排序,然后用归并排序法将小文件合并成为一个大文件。这里介绍一下归并排序法:归并排序是指将两个及以上的有序的文件,读取前n个到内存中每一个存到一个buffer里,在比较各个buffer中的第一个元素...原创 2018-10-16 20:13:41 · 3032 阅读 · 0 评论 -
MapReduce原理
在了解MapReduce之前我们先得知道,分布式的计算,是计算向数据移动。就比如上山砍柴,只能是去山上,而不能让山直接来找你。也就是说当数据量很大的时候,我们之前管用的数据想计算移动已经不适合了。我们要把计算任务发布到要处理的数据所在的节点。这就是分布式计算的思想。那什么是MapReduce呢?MapReduce的由来MapReduce是最先由Google 发布的三篇论文中MapReduce...原创 2018-10-17 12:53:11 · 267 阅读 · 0 评论 -
HDFS操作的常用命令
HDFS常用命令:上传文件:hdfs dfs -put src... desthdfs dfs -copyFromLacal src... desthdfs dfs -moveFromLocal src... dest //将本地的文件移动到HDFS中创建新目录:hdfs dfs -mkdir /test//级联创建:hdfs dfs -appendToFile cba /tes...原创 2018-10-10 22:18:30 · 801 阅读 · 0 评论 -
完全分布式集群搭建步骤
完全分布式集群搭建步骤[注]本文假设您的虚拟机配置已经完毕, 其需要的操作有:/etc/hosts文件需将文章所用到的主机名和Ip映射虚拟机防火墙关闭Hadoop环境变量配置完毕jdk配置完毕若以上步骤都做完了,那么可以开始我们的集群搭建(1) 时间同步① 各个节点安装ntp命令yum install ntp② 上网查找最新的时间服务器ntp1.aliyun.com③ 同步...原创 2018-10-10 22:45:51 · 4576 阅读 · 0 评论 -
局域网下用其他电脑连接VM虚拟机方法
局域网下想访问其他主机需要在vmware上打开--->[编辑]--->[虚拟机网络编辑器]接下来会弹出这个窗口 ,点击添加主机端口设置一个大于8888小于65535的数虚拟机Ip地址填写你要连虚拟机的Ip虚拟机端口为默认的22(PS:想填多少填多少,后面可以支持用其他电脑的eclips连接同一局域网的HDFS集群并可以操作)点击确定!到这里vm就修改...原创 2018-10-11 16:59:56 · 16608 阅读 · 4 评论