零基础学习大数据
文章平均质量分 77
本专栏从头开始讲述大数据的学习,内容包含hadoop,hive,spark,hbase,scala等技术
李功林
这个作者很懒,什么都没留下…
展开
-
Hive知识点总结
hive基础hive 是数据仓库,用来分析历史数据 目的是为了方便不会java的人员也可以使用MR分析数据。 hive基于hdfs,所有数据存储在hdfs上,hive的所有擦操作都是hdfs或者MR操作hive搭建本地模式,采用内存数据库derby,几乎不用 单用户模式 多用户模式 hive的搭建主要是mysql的配置信息以及hdfs存储数据的路径hiveSqlDDL 建表:Create/Drop/Truncate Table 分区:Alter Table/Par...原创 2020-05-16 15:06:46 · 214 阅读 · 0 评论 -
hive3.1.2 - hadoop3.2.1 搭建
前言此前我写了一篇关于hive 1.2.1版本搭建的教程,参看https://blog.csdn.net/qq_45415730/article/details/106128376。本篇主要讲基于hadoop3.x hive的搭建,中间的一些步骤与上篇教程一样,大家可以先看下上面链接,本篇主要描述hive3.x与历史版本搭建的不同之处。本地模式用的较少就不复赘述,直接从local模式开始,远程模式与历史版本无异,本篇也不再赘述。一、local模式1.修改hive-site.xml<c原创 2020-05-15 10:48:55 · 897 阅读 · 2 评论 -
hive-hadoop2.x搭建方式
前言本教程采用的是hive-1.21版本,hadoop版本为hadoop2.6.5一、本地方式(内嵌derby)步骤这种存储方式需要在本地运行一个mysql服务器,并作如下配置解压 修改安装包内conf文件夹下的hive-default.xml.template,并重命名为hite-site.xml<configuration> <property> <name>javax.jdo.option.Connect..原创 2020-05-15 10:47:58 · 171 阅读 · 0 评论 -
spark在yarn上运行报错:Yarn application has already ended
spark在yarn上运行报错:Exception in thread "main" org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. at org.apache.s...原创 2018-11-01 19:18:56 · 5967 阅读 · 3 评论 -
MapReduce原理
在了解MapReduce之前我们先得知道,分布式的计算,是计算向数据移动。就比如上山砍柴,只能是去山上,而不能让山直接来找你。也就是说当数据量很大的时候,我们之前管用的数据想计算移动已经不适合了。我们要把计算任务发布到要处理的数据所在的节点。这就是分布式计算的思想。那什么是MapReduce呢?MapReduce的由来MapReduce是最先由Google 发布的三篇论文中MapReduce...原创 2018-10-17 12:53:11 · 269 阅读 · 0 评论 -
两个案例带你理解分布式的计算思想
我们先看一下这个需求: 需求1: 将1T文件排序,这个文件的每一行都是一个数字 环境: 一台服务器 64G内存 看到这个需求,我们心中第一个想法是将大文件切割成小文件,然后小文件进行内部排序,然后用归并排序法将小文件合并成为一个大文件。这里介绍一下归并排序法:归并排序是指将两个及以上的有序的文件,读取前n个到内存中每一个存到一个buffer里,在比较各个buffer中的第一个元素...原创 2018-10-16 20:13:41 · 3038 阅读 · 0 评论 -
HDFS分布式集群搭建错误汇总
完全分布式集群搭建错误汇总原创 2018-10-15 23:01:08 · 317 阅读 · 0 评论 -
从零开始搭建HDFS集群之虚拟机安装及网络配置
Linux虚拟机的安装下载VMware许可证安装虚拟机配置静态Ip下载VMware我用的是VMware14版本,可以去官网下载,也可以点击链接VMware14安装包.exe许可证安装完VMware后需要许可证,点击这里下载:VMware许可证 安装虚拟机这里用的虚拟机是centos6.5 从网上下载一个镜像,安装虚拟机的详细过程后续更新安装好虚拟机之后需要配置静态Ip配置静态Ip...原创 2018-10-15 22:44:25 · 712 阅读 · 0 评论 -
HDFS总结
原创 2018-10-15 22:24:58 · 120 阅读 · 0 评论 -
局域网下连接其他电脑的HDFS集群
第一步:参看我的局域网下用其他电脑连接VM虚拟机方法这个是必须的,如果你会了那可以跳过第二步:学会怎么配置虚拟网路之后我们看一下这个配置文件hdfs-site.xml&amp;lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&amp;gt;&amp;lt;?xml-stylesheet type=&a原创 2018-10-14 17:26:14 · 1840 阅读 · 1 评论 -
HA(高可用)完全分布式搭建步骤:
集群规划 NN-1 NN-2 DN ZK ZKFC JNN node01 * * ...原创 2018-10-11 23:30:54 · 974 阅读 · 0 评论 -
局域网下用其他电脑连接VM虚拟机方法
局域网下想访问其他主机需要在vmware上打开--->[编辑]--->[虚拟机网络编辑器]接下来会弹出这个窗口 ,点击添加主机端口设置一个大于8888小于65535的数虚拟机Ip地址填写你要连虚拟机的Ip虚拟机端口为默认的22(PS:想填多少填多少,后面可以支持用其他电脑的eclips连接同一局域网的HDFS集群并可以操作)点击确定!到这里vm就修改...原创 2018-10-11 16:59:56 · 16634 阅读 · 4 评论 -
完全分布式集群搭建步骤
完全分布式集群搭建步骤[注]本文假设您的虚拟机配置已经完毕, 其需要的操作有:/etc/hosts文件需将文章所用到的主机名和Ip映射虚拟机防火墙关闭Hadoop环境变量配置完毕jdk配置完毕若以上步骤都做完了,那么可以开始我们的集群搭建(1) 时间同步① 各个节点安装ntp命令yum install ntp② 上网查找最新的时间服务器ntp1.aliyun.com③ 同步...原创 2018-10-10 22:45:51 · 4578 阅读 · 0 评论 -
HDFS操作的常用命令
HDFS常用命令:上传文件:hdfs dfs -put src... desthdfs dfs -copyFromLacal src... desthdfs dfs -moveFromLocal src... dest //将本地的文件移动到HDFS中创建新目录:hdfs dfs -mkdir /test//级联创建:hdfs dfs -appendToFile cba /tes...原创 2018-10-10 22:18:30 · 802 阅读 · 0 评论 -
分布式存储思维导图
原创 2018-10-10 09:12:21 · 660 阅读 · 0 评论 -
HDFS集群的搭建
搭建集群的首先要明白一个问题: 角色=进程搭建集群的模式有三种: 伪分布式 在一台服务器,启动多个进程,分别表示各个角色 完全分布式: 在多台服务器上,每台服务器启动不同的角色进程,这些服务器组成HDFS集群 高可用的完全分布式: 涉及到NameNode负载过重可能崩溃的问题,将NameNode建立一个备胎以提高其可用性 集群搭建步骤 伪分布式集群搭建方法: 1...原创 2018-10-09 23:41:48 · 248 阅读 · 0 评论