- 博客(26)
- 收藏
- 关注
原创 2021-10-22
Windows10 linux 子系统(WSL)安装&配置开机自启&配置Xshell root用户远程连接win10 WSL安装开机自启root用户远程连接win10 WSL安装https://blog.csdn.net/fangye945a/article/details/92801294开机自启https://blog.csdn.net/qq_18286031/article/details/102847379root用户远程连接https://blog.csdn.net/
2021-10-22 15:44:43 156
原创 Hive知识点总结
hive基础hive 是数据仓库,用来分析历史数据 目的是为了方便不会java的人员也可以使用MR分析数据。 hive基于hdfs,所有数据存储在hdfs上,hive的所有擦操作都是hdfs或者MR操作hive搭建本地模式,采用内存数据库derby,几乎不用 单用户模式 多用户模式 hive的搭建主要是mysql的配置信息以及hdfs存储数据的路径hiveSqlDDL 建表:Create/Drop/Truncate Table 分区:Alter Table/Par...
2020-05-16 15:06:46 225
原创 笔记本换键盘详细教程
笔记本换键盘详细教程笔记本键盘有可拆卸的,直接用螺丝到将键盘正面卡口撬开即可。本文记录的是笔记本键盘和C壳用塑料焊钉焊接在一起的键盘的更换。工具: 电烙铁或热风枪 十字螺丝刀 胶枪、胶棒第一步:拆后壳!没什么说的,螺丝刀都会用吧,壳子拆下来之后就该拆主板了。第二步:拆主板!首先将电池拆下来 其次将硬盘,固态以及周围碍事的线拆掉 将主板固定螺丝拆掉之后主板就可以拿下来了主板拆掉之后,笔记本就只剩下一些连接线,和键盘托了将周围碍事的线能拆的拆掉,
2020-05-15 10:50:33 4842
原创 hive3.1.2 - hadoop3.2.1 搭建
前言此前我写了一篇关于hive 1.2.1版本搭建的教程,参看https://blog.csdn.net/qq_45415730/article/details/106128376。本篇主要讲基于hadoop3.x hive的搭建,中间的一些步骤与上篇教程一样,大家可以先看下上面链接,本篇主要描述hive3.x与历史版本搭建的不同之处。本地模式用的较少就不复赘述,直接从local模式开始,远程模式与历史版本无异,本篇也不再赘述。一、local模式1.修改hive-site.xml<c
2020-05-15 10:48:55 911 2
原创 hive-hadoop2.x搭建方式
前言本教程采用的是hive-1.21版本,hadoop版本为hadoop2.6.5一、本地方式(内嵌derby)步骤这种存储方式需要在本地运行一个mysql服务器,并作如下配置解压 修改安装包内conf文件夹下的hive-default.xml.template,并重命名为hite-site.xml<configuration> <property> <name>javax.jdo.option.Connect..
2020-05-15 10:47:58 176
原创 hive搭建
搭建Hive本地方式(内嵌derby)步骤解压修改安装包内conf文件夹下的hive-default.xml.template,并重命名为hite-site.xml<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <v...
2019-04-10 20:09:06 172
原创 HBase搭建
参考本教程需要前提环境:配置好jdk 关闭防火墙 时间同步 免秘钥登录 修改hosts文件 配置并启动HDFS 下载HBase安装包修改HBase安装目录下的conf下的hbase-site.xml <configuration> <property> <name>hbase.cluster.distributed...
2018-11-22 11:09:22 161
原创 浅析源码,看Spark的资源调度和任务调度
目录 Spark原理之资源调度和任务调度Worker注册部分的源码分析worker注册的流程:关于去重结论Driver Application问题:Spark原理之资源调度和任务调度Spark资源调度涉及到三个集合:集合 类型 workers val workers = new HashSet[WorkerInfo] waitin...
2018-11-16 08:24:37 330
原创 spark原理之专用术语和运行流程
目录spark专用术语1、Master:2、Worker3、Application4、Driver5、Executor:执行器6、RDD:弹性分布式数据集7、窄依赖8、宽依赖9、有向无环图10、DAGScheduler:有向无环图调度器11、TaskScheduler:任务调度器12、Job:作业13、Stage:调度阶段15、Task:...
2018-11-15 17:28:56 192
原创 剖析Spark
SparkSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapR...
2018-11-13 10:25:57 300
原创 Spark算子详解
目录Spark常用算子详解1. mapPartitions2. mapPartitionsWithIndex3. getNumPartitions4. partitions5. foreachPartition6. coalesce7. repartition8. union,zip,join9. zipWithIndex,zipWithUniqueId...
2018-11-13 08:25:44 615
原创 scala和java的区别
目录Scala的特性:scala和java的区别1.变量的声明2.函数的声明3.数据类型4.数组5.未完待续Scala的特性:再讲Scala与java的区别之前我们先了解一下Scala有六大特性:java和scala可以无缝混编(都是基于JVM) 类型推测(不必指定类型,自动推测类型) 支持并发和分布式(Actor) 特质:trait(集结了java中...
2018-11-12 15:12:22 14970 1
原创 spark在yarn上运行报错:Yarn application has already ended
spark在yarn上运行报错:Exception in thread "main" org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. at org.apache.s...
2018-11-01 19:18:56 6010 3
原创 MapReduce原理
在了解MapReduce之前我们先得知道,分布式的计算,是计算向数据移动。就比如上山砍柴,只能是去山上,而不能让山直接来找你。也就是说当数据量很大的时候,我们之前管用的数据想计算移动已经不适合了。我们要把计算任务发布到要处理的数据所在的节点。这就是分布式计算的思想。那什么是MapReduce呢?MapReduce的由来MapReduce是最先由Google 发布的三篇论文中MapReduce...
2018-10-17 12:53:11 297
原创 两个案例带你理解分布式的计算思想
我们先看一下这个需求: 需求1: 将1T文件排序,这个文件的每一行都是一个数字 环境: 一台服务器 64G内存 看到这个需求,我们心中第一个想法是将大文件切割成小文件,然后小文件进行内部排序,然后用归并排序法将小文件合并成为一个大文件。这里介绍一下归并排序法:归并排序是指将两个及以上的有序的文件,读取前n个到内存中每一个存到一个buffer里,在比较各个buffer中的第一个元素...
2018-10-16 20:13:41 3078
原创 从零开始搭建HDFS集群之虚拟机安装及网络配置
Linux虚拟机的安装下载VMware许可证安装虚拟机配置静态Ip下载VMware我用的是VMware14版本,可以去官网下载,也可以点击链接VMware14安装包.exe许可证安装完VMware后需要许可证,点击这里下载:VMware许可证 安装虚拟机这里用的虚拟机是centos6.5 从网上下载一个镜像,安装虚拟机的详细过程后续更新安装好虚拟机之后需要配置静态Ip配置静态Ip...
2018-10-15 22:44:25 724
原创 局域网下连接其他电脑的HDFS集群
第一步:参看我的局域网下用其他电脑连接VM虚拟机方法这个是必须的,如果你会了那可以跳过第二步:学会怎么配置虚拟网路之后我们看一下这个配置文件hdfs-site.xml&amp;lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&amp;gt;&amp;lt;?xml-stylesheet type=&a
2018-10-14 17:26:14 1904 1
原创 局域网下用其他电脑连接VM虚拟机方法
局域网下想访问其他主机需要在vmware上打开--->[编辑]--->[虚拟机网络编辑器]接下来会弹出这个窗口 ,点击添加主机端口设置一个大于8888小于65535的数虚拟机Ip地址填写你要连虚拟机的Ip虚拟机端口为默认的22(PS:想填多少填多少,后面可以支持用其他电脑的eclips连接同一局域网的HDFS集群并可以操作)点击确定!到这里vm就修改...
2018-10-11 16:59:56 16819 4
原创 完全分布式集群搭建步骤
完全分布式集群搭建步骤[注]本文假设您的虚拟机配置已经完毕, 其需要的操作有:/etc/hosts文件需将文章所用到的主机名和Ip映射虚拟机防火墙关闭Hadoop环境变量配置完毕jdk配置完毕若以上步骤都做完了,那么可以开始我们的集群搭建(1) 时间同步① 各个节点安装ntp命令yum install ntp② 上网查找最新的时间服务器ntp1.aliyun.com③ 同步...
2018-10-10 22:45:51 4609
原创 HDFS操作的常用命令
HDFS常用命令:上传文件:hdfs dfs -put src... desthdfs dfs -copyFromLacal src... desthdfs dfs -moveFromLocal src... dest //将本地的文件移动到HDFS中创建新目录:hdfs dfs -mkdir /test//级联创建:hdfs dfs -appendToFile cba /tes...
2018-10-10 22:18:30 819
原创 HDFS集群的搭建
搭建集群的首先要明白一个问题: 角色=进程搭建集群的模式有三种: 伪分布式 在一台服务器,启动多个进程,分别表示各个角色 完全分布式: 在多台服务器上,每台服务器启动不同的角色进程,这些服务器组成HDFS集群 高可用的完全分布式: 涉及到NameNode负载过重可能崩溃的问题,将NameNode建立一个备胎以提高其可用性 集群搭建步骤 伪分布式集群搭建方法: 1...
2018-10-09 23:41:48 286
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人