![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据基础
文章平均质量分 60
烙痕
这个作者很懒,什么都没留下…
展开
-
MapReduce架构设计
MapReduceMap 映射函数Reduce 规约函数在hadoop1.x MR1中(计算+资源作业调度)分为JobTrackerTaskTracker: map task reduce task在hadoop2.x MR2中 计算 资源作业调度-->YARN(资源管理和作业调度放到了yarn平台)1.不需要部署组件2.架构设计(面试题)--》MR JOB提交到yarn的工作流程...原创 2018-07-09 01:16:26 · 517 阅读 · 0 评论 -
YARN伪分布式部署及jps的生产正确使用流程
YARN伪分布式部署 hadoop]$ cp mapred-site.xml.template mapred-site.xml hadoop]$ vi mapred-site.xml<configuration> <property> <name>mapreduce.framework.name</name> <...原创 2018-07-06 04:38:22 · 361 阅读 · 0 评论 -
spark 在yarn执行job时一直报0.0.0.0:8030错误
按照常规思路,首先检查配置文件:yarn-site.xml 。查看里面配置的yarn.resourcemanager.scheduler.address 是否为master。<property> <name>yarn.resourcemanager.hostname</name> <value...原创 2018-07-06 06:42:29 · 530 阅读 · 0 评论 -
Hive中的LEFT SEMI JOIN
LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。 SELECT a.key, a.val...原创 2018-07-12 22:55:06 · 232 阅读 · 0 评论 -
Hive - DDL 整理版
1. 相关说明DDL=Date Definition Language,数据定义语言。学习hive的HQL的DDL相关语法,建议对照官方WIKI,因为语法参数较多,而且和SQL多有相似,不建议记忆,梳理一下,记住相关可以实现的功能和注意点以及和SQL之间的区别即可。 官方WIKI打开: 浏览器访问 http://hive.apache.org, 找到”Getting Started Guide”,...转载 2018-07-12 23:28:46 · 128 阅读 · 0 评论 -
Hive - DML整理版
1. 相关说明DML=Data Manipulation Language 数据操作语言。HIVE的DML中,update和delete一般不会用,生产数据是不会删除的,常用overwrite和load做数据的转换。insert into values 也一般不会用,离线批处理,一些实时的数据insert场景并不多,这个命令只是从关系型数据库兼容过来的。2. LOAD操作HIVE的DML,从OS或...转载 2018-07-12 23:33:10 · 140 阅读 · 0 评论 -
Hive - DML 分区表 内部函数
DDL 创建数据库,创建表对于表的操作:1、创建表 2、复制表结构 3、复制一个表的数据过来 create table as select insert overwrite插入的时候如果有一列,和源数据信息的列,位置搞错了,不按正常写,就会出现报错,数据错乱所有在插入的时候需要慎重,列的数量,列的类型,以及列的顺序都写清楚。内部表和外部表:Hive上有两种类型的表,一种是Managed Tabl...转载 2018-07-13 00:16:08 · 451 阅读 · 0 评论 -
HDFS命令操作
命令基本格式:hadoop fs -cmd < args > hdfs dfs =hadoop fs1.lshadoop fs -ls /1列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /1列出hdfs文件系统所有的目录和文件2.puthadoop fs -put < local file > < hdfs file &...原创 2018-07-06 23:35:04 · 349 阅读 · 0 评论 -
HDFS文件的读写操作剖析
一、HDFS的一些基本概念: 数据块(block):大文件会被分割成多个block进行存储,block大小默认为64MB。每一个block会在多个datanode上存储多份副本,默认是3份。namenode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。datanode:datanode就负责存储了,当然大部分容错机制都是在datanode...原创 2018-07-06 23:38:07 · 233 阅读 · 0 评论 -
hadoop pid文件及如何修改路径
pid内容为各进程的进程号通过ps -ef | grep a 查询a的pid,精确杀死某进程[hadoop@hadoop000 sbin]$ cat hadoop-daemon.sh |grep pid# HADOOP_PID_DIR The pid files are stored. /tmp by default.(pid默认存储在/tmp目录)pid=$HADOOP_PID_DIR...原创 2018-07-07 21:15:50 · 3381 阅读 · 0 评论 -
hdfs回收站机制
1.启动回收站:1.1编辑core-site.xml文件添加以下属性:<property><!--多长时间创建CheckPoint NameNode截点上运行的CheckPointer 从Current文件夹创建CheckPoint;默认:0 由fs.trash.interval项指定 --> <name>fs.trash.checkpoint.interval...原创 2018-07-07 21:35:55 · 631 阅读 · 0 评论 -
Hive 函数UDF开发以及永久注册UDF函数
explode: (把一串数据转换成多行的数据)创建一个文本:[hadoop@ruozehadoop000 data]$ vi hive-wc.txthello,world,welcomehello,welcome创建一个表,并导入文本内容create table hive_wc(sentence string); load data local inpath '/home/hadoop/data...原创 2018-07-14 14:21:51 · 8123 阅读 · 0 评论 -
自定义函数sayhello 注册到hive 源码中,并且重新编译hive
环境: hive-1.1.0-cdh5.7.0 包 放在了 /root 下面 cdh 采用 cdh5.7.0 目标: 将自定义函数sayhello 注册到hive 源码中,并且重新编译hive1、编写UDF (1)使用idea+maven,在maven中添加相关参数。 重要的是 hadoop-common 、hive-exec 、hive-jdbc 以下为我的maven,文件头修改下,其他可以直...转载 2018-07-14 15:12:27 · 286 阅读 · 0 评论 -
Sqoop-1.4.6-cdh5.7.0.tar.gz安装 + Sqoop 简单操作
Sqoop安装1 下载1. 下载地址http://archive.cloudera.com/cdh5/cdh/5/2. 环境sqoop-1.4.6-cdh5.7.0.tar.gz版本2 上传到linux上,并解压[hadoop@ruozehadoop000 software]$ tar -xzvf sqoop-1.4.6-cdh5.7.0.tar.gz –C~/app修改用户和用户组 ...原创 2018-07-14 22:31:48 · 1105 阅读 · 1 评论 -
Hadoop用户重新部署伪分布式(HDFS)
上次课我们部署的使用的root用户,在生产环境中,不可能给你root用户,我们就创建一个hadoop用户重新部署伪分布式(HDFS)Hadoop用户重新部署hdfs步骤1.创建Hadoop用户# useradd hadoop# id hadoop# passwd haddop# vi /etc/sudoers hadoop ALL=(root) NOPASSWD:ALL2.部署ssh,确保其...原创 2018-07-06 04:29:44 · 278 阅读 · 0 评论 -
Hadoop用户启动hdf三个进程
前言:再上次的课程中我们配置了root用户来启动了hdfs,hdfs-site.xml内的参数都是官方默认的参数,所以启动项没有整理比较乱,为了做生产标准统一规范使用,我要用hadoop用户启动hdfs进程的启动显示全部为hadoop-01的主机名,先看看root用户下启动的情况可以看到namenodes datanode sercondary namenodes 进程启动的名称都不相同,接下来会...原创 2018-07-06 04:26:03 · 1440 阅读 · 0 评论 -
Linux常用命令汇总
1. 查看当前ip - linux# ifconfig查看当前ip - windowscmd -> ipconfig2.CRT/XSHELL 链接 Linux3.文件创建 vi 和 touch xxx.log 创建一个空的文件 结果: 4.文件夹创建 mkdir xxx 创建1层 mkdir -p 1/2/3 连续创建3层...原创 2018-07-02 22:48:13 · 569 阅读 · 0 评论 -
Hadoop与root用户配置ssh免密码登录
Hadoop用户配置ssh1.创建Hadoop用户# useradd hadoop# id hadoop# vi /etc/sudoers hadoop ALL=(root) NOPASSWD:ALL2.部署ssh,确保其是运行的查看:默认是已经安装 hadoop]$ sudo service sshd status3.配置hadoop用户的ssh的信任关系~]$ ssh-keygen...原创 2018-07-02 22:45:07 · 999 阅读 · 0 评论 -
MySQL常用命令和SQL语法
MySQL的基本概念:database db :数据库table : 表db1:t1, t2, t3db2:t2, t3, t4字段类型:整数型:int小数型:float/double字符:char字符串:varchar时间:timestamp常规命令:使用某个数据库: use 数据库名;查看数据库下面所有的表: show tables;查看某个表的表结构: ...原创 2018-07-02 23:00:53 · 133 阅读 · 0 评论 -
Hadoop 编译
1.官网:http://hadoop.apache.org/2.Hadoop的狭义和褒义认识:狭义:软件(HDFS、MapReduce、Yarn)褒义:以Hadoop为主的生态圈3.Hadoop版本Hadoop1.x: HDFS:分布式文件系统,存储 MapReduce:分布式计算+资源调度和作业调度Hadoop2.x HDFS:存储 MapReduce:计算 Yar...原创 2018-07-03 23:25:27 · 133 阅读 · 0 评论 -
Hadoop伪分布式模式部署 HDFS(root用户)
Hadoop伪分布式模式部署Hadoop2.x:官网:hadoop.apache.org三个组件:HDFS:分布式文件系统,存储MapReduce:分布式计算Yarn:资源(cpu + memory)和JOB调度监控文档地址: http://hadoop.apache.org/docs/r2.8.2/部署方式:1.单机模式(Standalone):1个Java进程2.伪分布模式(Pseudo...原创 2018-07-03 23:49:01 · 354 阅读 · 0 评论 -
Hadoop生态系统官网、下载地址、文档
Apache版本:Hadoop官网:http://hadoop.apache.org/Hadoop下载:http://mirror.bit.edu.cn/apache/hadoop/common/Hadoop历史版本下载:http://archive.apache.org/dist/hadoop/core/Hadoop文档:http://hadoop.apache.org/docs/Hive官网:...原创 2018-07-10 19:32:03 · 632 阅读 · 0 评论 -
YARN 生产详解
参考学长博客,加了点自己的理解,学长的博客很详细,还只是弄懂了大半。高级班开课在即,赶进度,赶完基础班内容后我会对基础班的内容逐一总结归纳。 YARN(主从) 资源 + 作业调度管理YARN:是一种新的 Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 Resour...原创 2018-07-11 00:00:58 · 293 阅读 · 0 评论 -
Hadoop-2.6.0-cdh5.7.0安装步骤
1.下载Hadoop和JDK 下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz 下载jdk:http://mvnrepository.com/artifact/mysql/mysql-connector-java/5.1.272.安装JDK 2.1解压jdk压缩包 tar -z...原创 2018-07-11 19:41:08 · 771 阅读 · 0 评论 -
Hive的安装部署
Hive环境的搭建/home/hadoop/ (目录) software 存放安装软件 hadoop-2.6.0-cdh5.7.0.tar.gz hive-1.1.0-cdh5.7.0.tar.gz data 存放测试数据 source 存放源代码...原创 2018-07-11 20:07:56 · 141 阅读 · 0 评论 -
Hive结构化数据、半结构化数据和非结构化数据
在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis,mangodb),RDBMS关系数据库(oracle,mysql等),还有一些其它的数据库如hbase,在这些数据库中,又会出现结构化数据,非结构化数据,半结构化数据,下面列出各种数据类型:结构化数据:能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号。传统的关系数据模型、行数据,存储...转载 2018-07-11 20:27:19 · 6153 阅读 · 0 评论 -
知识结构梳理1(各软件简介,用途)
Hadoop:Apache Hadoop项目为可靠、可扩展、分布式计算开发开源软件。Apache Hadoop软件库是一个允许使用简单编程模型跨计算机集群分布式处理大型数据集的框架。它被设计成从单个服务器扩展到数千台机器,每个机器提供本地计算和存储。而不是依赖于硬件来提供高可用性,库本身被设计成检测和处理应用层的故障,因此在计算机群集的顶部提供高度可用的服务。 该项目...原创 2018-07-18 13:48:09 · 2851 阅读 · 0 评论 -
Hadoop官网使用教程
Hadoo官网查看单节点安装步骤:1.登录Hadoop主页,http://hadoop.apache.org/2.找到左侧的Documentation,点击下拉箭头找到我们现在正在使用的Hadoop版本3.若泽大数据课程的Hadoop版本为Release 2.8.3,单击进入。4.点击左侧的 Single Node Setup 5.找到了单节点的安装部署信息单节点部署Hadoop网站地址:http...原创 2018-07-06 02:05:29 · 4804 阅读 · 0 评论 -
Hadoop伪分布式部署 HDFS (hadoop用户)
环境要求java、ssh添加hadoop用户[root@hadoop-01 ~]# useradd hadoop[root@hadoop-01 ~]# vi /etc/sudoers# 找到root ALL=(ALL) ALL,添加hadoop ALL=(ALL) NOPASSWD:ALL上传并解压[root@hadoop-01 software]# rz #上...原创 2018-07-06 04:15:08 · 401 阅读 · 2 评论 -
sql删表
一、SQL中的语法 1、drop table 表名称 eg: drop table dbo.Sys_Test 2、truncate table 表名称 eg: truncate table dbo.Sys_Test 3、delete from 表名称 ...转载 2018-08-01 15:43:07 · 229 阅读 · 0 评论