自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 2021-10-22

Windows10 linux 子系统(WSL)安装&配置开机自启&配置Xshell root用户远程连接win10 WSL安装开机自启root用户远程连接win10 WSL安装https://blog.csdn.net/fangye945a/article/details/92801294开机自启https://blog.csdn.net/qq_18286031/article/details/102847379root用户远程连接https://blog.csdn.net/

2021-10-22 15:44:43 127

原创 Hive知识点总结

hive基础hive 是数据仓库,用来分析历史数据 目的是为了方便不会java的人员也可以使用MR分析数据。 hive基于hdfs,所有数据存储在hdfs上,hive的所有擦操作都是hdfs或者MR操作hive搭建本地模式,采用内存数据库derby,几乎不用 单用户模式 多用户模式 hive的搭建主要是mysql的配置信息以及hdfs存储数据的路径hiveSqlDDL 建表:Create/Drop/Truncate Table 分区:Alter Table/Par...

2020-05-16 15:06:46 213

原创 笔记本换键盘详细教程

笔记本换键盘详细教程笔记本键盘有可拆卸的,直接用螺丝到将键盘正面卡口撬开即可。本文记录的是笔记本键盘和C壳用塑料焊钉焊接在一起的键盘的更换。工具: 电烙铁或热风枪 十字螺丝刀 胶枪、胶棒第一步:拆后壳!没什么说的,螺丝刀都会用吧,壳子拆下来之后就该拆主板了。第二步:拆主板!首先将电池拆下来 其次将硬盘,固态以及周围碍事的线拆掉 将主板固定螺丝拆掉之后主板就可以拿下来了主板拆掉之后,笔记本就只剩下一些连接线,和键盘托了将周围碍事的线能拆的拆掉,

2020-05-15 10:50:33 4524

原创 hive3.1.2 - hadoop3.2.1 搭建

前言此前我写了一篇关于hive 1.2.1版本搭建的教程,参看https://blog.csdn.net/qq_45415730/article/details/106128376。本篇主要讲基于hadoop3.x hive的搭建,中间的一些步骤与上篇教程一样,大家可以先看下上面链接,本篇主要描述hive3.x与历史版本搭建的不同之处。本地模式用的较少就不复赘述,直接从local模式开始,远程模式与历史版本无异,本篇也不再赘述。一、local模式1.修改hive-site.xml<c

2020-05-15 10:48:55 897 2

原创 hive-hadoop2.x搭建方式

前言本教程采用的是hive-1.21版本,hadoop版本为hadoop2.6.5一、本地方式(内嵌derby)步骤这种存储方式需要在本地运行一个mysql服务器,并作如下配置解压 修改安装包内conf文件夹下的hive-default.xml.template,并重命名为hite-site.xml​<configuration> <property> <name>javax.jdo.option.Connect..

2020-05-15 10:47:58 170

原创 hive搭建

搭建Hive本地方式(内嵌derby)步骤解压修改安装包内conf文件夹下的hive-default.xml.template,并重命名为hite-site.xml<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <v...

2019-04-10 20:09:06 158

原创 集群搭建(引用)

高可用spark集群搭建Hive搭建

2018-11-26 17:00:10 130 1

原创 HBase搭建

参考本教程需要前提环境:配置好jdk 关闭防火墙 时间同步 免秘钥登录 修改hosts文件 配置并启动HDFS 下载HBase安装包修改HBase安装目录下的conf下的hbase-site.xml &lt;configuration&gt; &lt;property&gt; &lt;name&gt;hbase.cluster.distributed...

2018-11-22 11:09:22 135

原创 浅析源码,看Spark的资源调度和任务调度

目录 Spark原理之资源调度和任务调度Worker注册部分的源码分析worker注册的流程:关于去重结论Driver Application问题:Spark原理之资源调度和任务调度Spark资源调度涉及到三个集合:集合 类型 workers val workers = new HashSet[WorkerInfo] waitin...

2018-11-16 08:24:37 168

原创 spark原理之专用术语和运行流程

目录spark专用术语1、Master:2、Worker3、Application4、Driver5、Executor:执行器6、RDD:弹性分布式数据集7、窄依赖8、宽依赖9、有向无环图10、DAGScheduler:有向无环图调度器11、TaskScheduler:任务调度器12、Job:作业13、Stage:调度阶段15、Task:...

2018-11-15 17:28:56 171

原创 剖析Spark

SparkSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapR...

2018-11-13 10:25:57 248

原创 Spark算子详解

目录Spark常用算子详解1. mapPartitions2. mapPartitionsWithIndex3. getNumPartitions4. partitions5. foreachPartition6. coalesce7. repartition8. union,zip,join9. zipWithIndex,zipWithUniqueId...

2018-11-13 08:25:44 525

原创 scala和java的区别

目录Scala的特性:scala和java的区别1.变量的声明2.函数的声明3.数据类型4.数组5.未完待续Scala的特性:再讲Scala与java的区别之前我们先了解一下Scala有六大特性:java和scala可以无缝混编(都是基于JVM) 类型推测(不必指定类型,自动推测类型) 支持并发和分布式(Actor) 特质:trait(集结了java中...

2018-11-12 15:12:22 14611 1

原创 spark在yarn上运行报错:Yarn application has already ended

spark在yarn上运行报错:Exception in thread "main" org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master.    at org.apache.s...

2018-11-01 19:18:56 5959 3

原创 MapReduce原理

在了解MapReduce之前我们先得知道,分布式的计算,是计算向数据移动。就比如上山砍柴,只能是去山上,而不能让山直接来找你。也就是说当数据量很大的时候,我们之前管用的数据想计算移动已经不适合了。我们要把计算任务发布到要处理的数据所在的节点。这就是分布式计算的思想。那什么是MapReduce呢?MapReduce的由来MapReduce是最先由Google 发布的三篇论文中MapReduce...

2018-10-17 12:53:11 267

原创 两个案例带你理解分布式的计算思想

我们先看一下这个需求: 需求1: 将1T文件排序,这个文件的每一行都是一个数字 环境: 一台服务器 64G内存 看到这个需求,我们心中第一个想法是将大文件切割成小文件,然后小文件进行内部排序,然后用归并排序法将小文件合并成为一个大文件。这里介绍一下归并排序法:归并排序是指将两个及以上的有序的文件,读取前n个到内存中每一个存到一个buffer里,在比较各个buffer中的第一个元素...

2018-10-16 20:13:41 3032

原创 HDFS分布式集群搭建错误汇总

完全分布式集群搭建错误汇总

2018-10-15 23:01:08 315

原创 从零开始搭建HDFS集群之虚拟机安装及网络配置

Linux虚拟机的安装下载VMware许可证安装虚拟机配置静态Ip下载VMware我用的是VMware14版本,可以去官网下载,也可以点击链接VMware14安装包.exe许可证安装完VMware后需要许可证,点击这里下载:VMware许可证 安装虚拟机这里用的虚拟机是centos6.5 从网上下载一个镜像,安装虚拟机的详细过程后续更新安装好虚拟机之后需要配置静态Ip配置静态Ip...

2018-10-15 22:44:25 711

原创 HDFS总结

2018-10-15 22:24:58 120

原创 局域网下连接其他电脑的HDFS集群

第一步:参看我的局域网下用其他电脑连接VM虚拟机方法这个是必须的,如果你会了那可以跳过第二步:学会怎么配置虚拟网路之后我们看一下这个配置文件hdfs-site.xml&amp;amp;lt;?xml version=&amp;quot;1.0&amp;quot; encoding=&amp;quot;UTF-8&amp;quot;?&amp;amp;gt;&amp;amp;lt;?xml-stylesheet type=&a

2018-10-14 17:26:14 1833 1

原创 HA(高可用)完全分布式搭建步骤:

 集群规划     NN-1 NN-2 DN ZK ZKFC JNN node01 *       * ...

2018-10-11 23:30:54 972

原创 局域网下用其他电脑连接VM虚拟机方法

局域网下想访问其他主机需要在vmware上打开---&gt;[编辑]---&gt;[虚拟机网络编辑器]接下来会弹出这个窗口 ,点击添加主机端口设置一个大于8888小于65535的数虚拟机Ip地址填写你要连虚拟机的Ip虚拟机端口为默认的22(PS:想填多少填多少,后面可以支持用其他电脑的eclips连接同一局域网的HDFS集群并可以操作)点击确定!到这里vm就修改...

2018-10-11 16:59:56 16594 4

原创 完全分布式集群搭建步骤

完全分布式集群搭建步骤[注]本文假设您的虚拟机配置已经完毕, 其需要的操作有:/etc/hosts文件需将文章所用到的主机名和Ip映射虚拟机防火墙关闭Hadoop环境变量配置完毕jdk配置完毕若以上步骤都做完了,那么可以开始我们的集群搭建(1) 时间同步① 各个节点安装ntp命令yum install ntp② 上网查找最新的时间服务器ntp1.aliyun.com③ 同步...

2018-10-10 22:45:51 4576

原创 HDFS操作的常用命令

HDFS常用命令:上传文件:hdfs dfs -put src... desthdfs dfs -copyFromLacal src... desthdfs dfs -moveFromLocal src... dest //将本地的文件移动到HDFS中创建新目录:hdfs dfs -mkdir /test//级联创建:hdfs dfs -appendToFile cba /tes...

2018-10-10 22:18:30 801

原创 分布式存储思维导图

2018-10-10 09:12:21 657

原创 HDFS集群的搭建

搭建集群的首先要明白一个问题: 角色=进程搭建集群的模式有三种: 伪分布式 在一台服务器,启动多个进程,分别表示各个角色 完全分布式: 在多台服务器上,每台服务器启动不同的角色进程,这些服务器组成HDFS集群 高可用的完全分布式: 涉及到NameNode负载过重可能崩溃的问题,将NameNode建立一个备胎以提高其可用性 集群搭建步骤 伪分布式集群搭建方法: 1...

2018-10-09 23:41:48 247

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除