李功林-CSDN博客

原创 2021-10-22

Windows10 linux 子系统（WSL）安装&配置开机自启&配置Xshell root用户远程连接win10 WSL安装开机自启root用户远程连接win10 WSL安装https://blog.csdn.net/fangye945a/article/details/92801294开机自启https://blog.csdn.net/qq_18286031/article/details/102847379root用户远程连接https://blog.csdn.net/

2021-10-22 15:44:43 156

原创 Hive知识点总结

hive基础hive 是数据仓库，用来分析历史数据目的是为了方便不会java的人员也可以使用MR分析数据。 hive基于hdfs，所有数据存储在hdfs上，hive的所有擦操作都是hdfs或者MR操作hive搭建本地模式，采用内存数据库derby，几乎不用单用户模式多用户模式 hive的搭建主要是mysql的配置信息以及hdfs存储数据的路径hiveSqlDDL 建表：Create/Drop/Truncate Table 分区：Alter Table/Par...

2020-05-16 15:06:46 225

原创笔记本换键盘详细教程

笔记本换键盘详细教程笔记本键盘有可拆卸的，直接用螺丝到将键盘正面卡口撬开即可。本文记录的是笔记本键盘和C壳用塑料焊钉焊接在一起的键盘的更换。工具：电烙铁或热风枪十字螺丝刀胶枪、胶棒第一步：拆后壳！没什么说的，螺丝刀都会用吧，壳子拆下来之后就该拆主板了。第二步：拆主板！首先将电池拆下来其次将硬盘，固态以及周围碍事的线拆掉将主板固定螺丝拆掉之后主板就可以拿下来了主板拆掉之后，笔记本就只剩下一些连接线，和键盘托了将周围碍事的线能拆的拆掉，

2020-05-15 10:50:33 4842

原创 hive3.1.2 - hadoop3.2.1 搭建

前言此前我写了一篇关于hive 1.2.1版本搭建的教程，参看https://blog.csdn.net/qq_45415730/article/details/106128376。本篇主要讲基于hadoop3.x hive的搭建，中间的一些步骤与上篇教程一样，大家可以先看下上面链接，本篇主要描述hive3.x与历史版本搭建的不同之处。本地模式用的较少就不复赘述，直接从local模式开始，远程模式与历史版本无异，本篇也不再赘述。一、local模式1.修改hive-site.xml<c

2020-05-15 10:48:55 911 2

原创 hive-hadoop2.x搭建方式

前言本教程采用的是hive-1.21版本,hadoop版本为hadoop2.6.5一、本地方式（内嵌derby）步骤这种存储方式需要在本地运行一个mysql服务器，并作如下配置解压修改安装包内conf文件夹下的hive-default.xml.template，并重命名为hite-site.xml<configuration> <property> <name>javax.jdo.option.Connect..

2020-05-15 10:47:58 176

原创 hive搭建

搭建Hive本地方式（内嵌derby）步骤解压修改安装包内conf文件夹下的hive-default.xml.template，并重命名为hite-site.xml<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <v...

2019-04-10 20:09:06 172

原创集群搭建（引用）

高可用spark集群搭建Hive搭建

2018-11-26 17:00:10 140 1

原创 HBase搭建

参考本教程需要前提环境：配置好jdk 关闭防火墙时间同步免秘钥登录修改hosts文件配置并启动HDFS 下载HBase安装包修改HBase安装目录下的conf下的hbase-site.xml <configuration> <property> <name>hbase.cluster.distributed...

2018-11-22 11:09:22 161

原创浅析源码，看Spark的资源调度和任务调度

目录 Spark原理之资源调度和任务调度Worker注册部分的源码分析worker注册的流程：关于去重结论Driver Application问题：Spark原理之资源调度和任务调度Spark资源调度涉及到三个集合：集合类型 workers val workers = new HashSet[WorkerInfo] waitin...

2018-11-16 08:24:37 330

原创 spark原理之专用术语和运行流程

目录spark专用术语1、Master：2、Worker3、Application4、Driver5、Executor：执行器6、RDD：弹性分布式数据集7、窄依赖8、宽依赖9、有向无环图10、DAGScheduler：有向无环图调度器11、TaskScheduler：任务调度器12、Job：作业13、Stage：调度阶段15、Task：...

2018-11-15 17:28:56 192

原创剖析Spark

SparkSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapR...

2018-11-13 10:25:57 300

原创 Spark算子详解

目录Spark常用算子详解1. mapPartitions2. mapPartitionsWithIndex3. getNumPartitions4. partitions5. foreachPartition6. coalesce7. repartition8. union，zip，join9. zipWithIndex，zipWithUniqueId...

2018-11-13 08:25:44 615

原创 scala和java的区别

目录Scala的特性：scala和java的区别1.变量的声明2.函数的声明3.数据类型4.数组5.未完待续Scala的特性：再讲Scala与java的区别之前我们先了解一下Scala有六大特性：java和scala可以无缝混编（都是基于JVM）类型推测（不必指定类型，自动推测类型）支持并发和分布式（Actor）特质：trait（集结了java中...

2018-11-12 15:12:22 14970 1

原创 spark在yarn上运行报错:Yarn application has already ended

spark在yarn上运行报错:Exception in thread "main" org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. at org.apache.s...

2018-11-01 19:18:56 6010 3

原创 MapReduce原理

在了解MapReduce之前我们先得知道，分布式的计算，是计算向数据移动。就比如上山砍柴，只能是去山上，而不能让山直接来找你。也就是说当数据量很大的时候，我们之前管用的数据想计算移动已经不适合了。我们要把计算任务发布到要处理的数据所在的节点。这就是分布式计算的思想。那什么是MapReduce呢？MapReduce的由来MapReduce是最先由Google 发布的三篇论文中MapReduce...

2018-10-17 12:53:11 297

原创两个案例带你理解分布式的计算思想

我们先看一下这个需求: 需求1: 将1T文件排序，这个文件的每一行都是一个数字环境: 一台服务器 64G内存看到这个需求，我们心中第一个想法是将大文件切割成小文件，然后小文件进行内部排序，然后用归并排序法将小文件合并成为一个大文件。这里介绍一下归并排序法：归并排序是指将两个及以上的有序的文件，读取前n个到内存中每一个存到一个buffer里，在比较各个buffer中的第一个元素...

2018-10-16 20:13:41 3078

原创 HDFS分布式集群搭建错误汇总

完全分布式集群搭建错误汇总

2018-10-15 23:01:08 336

原创从零开始搭建HDFS集群之虚拟机安装及网络配置

Linux虚拟机的安装下载VMware许可证安装虚拟机配置静态Ip下载VMware我用的是VMware14版本,可以去官网下载,也可以点击链接VMware14安装包.exe许可证安装完VMware后需要许可证,点击这里下载:VMware许可证安装虚拟机这里用的虚拟机是centos6.5 从网上下载一个镜像,安装虚拟机的详细过程后续更新安装好虚拟机之后需要配置静态Ip配置静态Ip...

2018-10-15 22:44:25 724

原创 HDFS总结

2018-10-15 22:24:58 131

原创局域网下连接其他电脑的HDFS集群

第一步:参看我的局域网下用其他电脑连接VM虚拟机方法这个是必须的,如果你会了那可以跳过第二步:学会怎么配置虚拟网路之后我们看一下这个配置文件hdfs-site.xml&amp;lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&amp;gt;&amp;lt;?xml-stylesheet type=&a

2018-10-14 17:26:14 1904 1

原创 HA(高可用)完全分布式搭建步骤：

集群规划 NN-1 NN-2 DN ZK ZKFC JNN node01 * * ...

2018-10-11 23:30:54 984

原创局域网下用其他电脑连接VM虚拟机方法

局域网下想访问其他主机需要在vmware上打开--->[编辑]--->[虚拟机网络编辑器]接下来会弹出这个窗口，点击添加主机端口设置一个大于8888小于65535的数虚拟机Ip地址填写你要连虚拟机的Ip虚拟机端口为默认的22(PS:想填多少填多少,后面可以支持用其他电脑的eclips连接同一局域网的HDFS集群并可以操作)点击确定！到这里vm就修改...

2018-10-11 16:59:56 16819 4

原创完全分布式集群搭建步骤

完全分布式集群搭建步骤[注]本文假设您的虚拟机配置已经完毕, 其需要的操作有:/etc/hosts文件需将文章所用到的主机名和Ip映射虚拟机防火墙关闭Hadoop环境变量配置完毕jdk配置完毕若以上步骤都做完了,那么可以开始我们的集群搭建(1) 时间同步① 各个节点安装ntp命令yum install ntp② 上网查找最新的时间服务器ntp1.aliyun.com③ 同步...

2018-10-10 22:45:51 4609

原创 HDFS操作的常用命令

HDFS常用命令:上传文件:hdfs dfs -put src... desthdfs dfs -copyFromLacal src... desthdfs dfs -moveFromLocal src... dest //将本地的文件移动到HDFS中创建新目录:hdfs dfs -mkdir /test//级联创建:hdfs dfs -appendToFile cba /tes...

2018-10-10 22:18:30 819

原创分布式存储思维导图

2018-10-10 09:12:21 706

原创 HDFS集群的搭建

搭建集群的首先要明白一个问题: 角色=进程搭建集群的模式有三种: 伪分布式在一台服务器,启动多个进程,分别表示各个角色完全分布式: 在多台服务器上,每台服务器启动不同的角色进程,这些服务器组成HDFS集群高可用的完全分布式: 涉及到NameNode负载过重可能崩溃的问题,将NameNode建立一个备胎以提高其可用性集群搭建步骤伪分布式集群搭建方法: 1...

2018-10-09 23:41:48 286

mlin的博客