大数据
Hi!Siri
这个作者很懒,什么都没留下…
展开
-
使用Sqoop进行数据迁移(一)
数据迁移一.Sqoop安装二.从RDB导入数据到HDFS<1> 表中数据全部导入:<2> 通过where语句过滤导入表<3> 通过columns过滤导入表<4> 使用query方式导入数据一.Sqoop安装安装教程见博客:Sqoop安装二.从RDB导入数据到HDFS<1> 表中数据全部导入:在mysql中创建 sq 库, 进入sq 数据,创建student表,插入数据create database sq;use sq;crea原创 2020-09-26 16:32:16 · 563 阅读 · 0 评论 -
Sqoop安装配置
一.Sqoop安装前提条件安装 Sqoop 的前提是已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase 的 环境.二.Sqoop安装下载安装包安装包下载链接:https://pan.baidu.com/s/1pJO_8qzHq_ta8NDJlFr5mw提取码:1234将安装包上传至Linux系统 /opt目录下解压并改名tar -zxvf sqoop-1.4.6-cdh5.14.2.tar.gzmv sqoop-1.4.6-cdh5.14.2原创 2020-09-26 14:17:52 · 244 阅读 · 0 评论 -
Phoenix安装配置
一.下载安装包phoenix安装包下载地址:链接:https://pan.baidu.com/s/1rS1-2IVxRCujD1O8Vn_oAQ提取码:1234二.安装配置将安装包上传到Linux系统/opt目录下解压并改名tar -zxvf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gzmv apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz phoenix拷贝 phoenix-4.14.0-cdh5.13.原创 2020-09-25 17:38:32 · 363 阅读 · 0 评论 -
Phoenix概述以及使用Phoenix操作Hbase
Phoenix一.Phoenix概述二.Phoenix的应用场景三.Phoenix架构四.Phoenix SQL语法五. Phoenix操作Hbase一.Phoenix概述Phoenix简介构建在Hbase上的SQL层使用标准SQL在Hbase中管理数据使用JDBC来创建表,插入数据,对Hbase数据进行查询Phoenix JDBC Driver容易嵌入到支持JDBC的程序中Phoenix无法代替RDBMS缺乏完整约束,很多领域尚不成熟Phoenix使Hbase更易用原创 2020-09-25 17:11:37 · 377 阅读 · 0 评论 -
Hbase概述及Hbase shell 操作
Hbase一.Hbase概述二.Hbase发展史三.Hbase应用场景四.Apache HBase生态圈五.HBase物理架构六.HBase数据管理七.HBase架构特点八.HBase Shell九.HBase操作十.示例一.Hbase概述1.Hbase是一个领先的NoSQL数据库* 是一个面向列的数据库* 是一个分布式hash map* 基于Google Big Table论文* 使用HDFS作为存储并利用其可靠性2.Hbase特点* 数据访问速度快,响应时间约2-20毫秒* 支持随机读原创 2020-09-24 20:14:27 · 568 阅读 · 0 评论 -
NoSQL综述
NoSQL综述一.什么是NoSQL二.为什么使用NoSQL三.NoSQL和关系型数据库的对比四.NoSQL的特点五.NoSQL三大基石:CAP,BASE,最终一致性六.索引和查询七.NoSQL分类一.什么是NoSQL1.NoSQL: not only SQL ,非关系型数据库2.NoSQL是一个通用术语指不遵循传统RDBMS模型的数据库数据是非关系的,且不适用SQL作为只要查询语言解决数据库的可伸缩性和可用性问题不针对原子性或一致性问题二.为什么使用NoSQL互联网的发展,传统关系型数原创 2020-09-24 16:23:12 · 316 阅读 · 0 评论 -
使用java实现Hive UDF
案例要求:打印直角三角形1.使用idea创建maven工程,对应的pom.xml配置如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0原创 2020-09-22 20:19:30 · 569 阅读 · 0 评论 -
Hive高级查询(二)
Hive高级查询二一.Hive聚合运算--group by二.聚合函数-having三.Hive聚合运算-基础聚合四.Hive聚合运算:高级聚合-1五.Hive聚合运算-高级聚合-2六.示例:一.Hive聚合运算–group bygroup by 用于分组Hive基本内置聚合函数与group by一起使用如果没有指定group by字句,默认聚合整个表除聚合函数外,所选的其他列也必须包含在group by中group by支持使用case when或表达式支持按位编号分组set hive原创 2020-09-22 18:53:46 · 245 阅读 · 0 评论 -
hadoop安装
1.将hadoop安装包拖入software文件夹中2.输入tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz 解压文件3.输入mv hadoop-2.6.0-cdh5.14.2 /opt/hadoop 将文件移动到opt目录下并改名hadoop4.输入 vi /etc/profile 添加下图中的配置5.输入source /etc/profile6.输入hadoop version7.输入 cd etc/hadoop 然后输入vi core-site.xml原创 2020-09-05 08:01:53 · 361 阅读 · 0 评论 -
Zeppelin安装配置
Zeppelin安装配置一级目录二级目录三级目录一 下载安装包二. 上传并解压并配置文件三.配置Hive解释器四.在web界面配置集成hive五. 使用Zepplin的hive解释器一级目录二级目录三级目录一 下载安装包安装包链接链接: https://pan.baidu.com/s/1vUvWKPRFlUNz3Txs2TwpWQ 提取码: 8c63二. 上传并解压并配置文件上传到Linux /opt目录下解压tar -zxvf zeppelin-0.8.1-bin-all.tgz原创 2020-09-19 15:21:12 · 374 阅读 · 0 评论 -
Hive高级查询(一)
1.select 基础select 用于映射符合指定查询条件的行Hive select是数据库标准SQL子集使用方法类似于Mysqlselect 1;select [distinct] column_name list from table_name;select * from table_name;select * from employee where name!='Lily' limit 5;2.CTE和嵌套查询CTE语法with t1 as (select ...) s原创 2020-09-19 07:09:19 · 232 阅读 · 0 评论 -
MapReduce 过程详解
MapReduce 过程详解一.Map端:二.Reduce端:一.Map端:Map节点运行map task任务生成map的输出结果1.Shuffer的工作内容从运算效率的出发点,map的输出结果有限存储在map节点的内存中.每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲快满时,需要将缓冲区的数据以一个临时文件的形式存储到磁盘中,当整个map task结束后,在对磁盘中的这个临时文件做合并,生成最终的输出文件, 最后等待reduce task来拉取数据.当然当map t原创 2020-09-18 10:19:30 · 561 阅读 · 0 评论 -
MapReduce实现Wordcount
package cn.kgc.kb09.mr;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WCMapper extends Mapper<Lo.原创 2020-09-18 11:14:02 · 139 阅读 · 0 评论 -
Hive中对库和表的操作
Hive中对库和表的操作一级目录二级目录三级目录一.前提条件二.对库的操作三.对表的操作四.Hive分区(Partitions)一级目录二级目录三级目录一.前提条件hive安装配置完成hive安装教程链接 Hive单机版安装二.对库的操作建库 (库名hivetest)create database hivetest删库drop database hivetest进入库use hivetesthive对库的操作和mysql相同三.对表的操作建表语句原创 2020-09-16 16:20:02 · 197 阅读 · 0 评论 -
分布式文件系统HDFS
分布式文件系统HDFS一.Hadoop架构二.HDFS架构三.HDFS组成角色及其功能四.HDFS副本机制五.HDFS优缺点六.HDfS Cli(shell 命令行)七.HDFS读写文件一.Hadoop架构HDFS(Hadoop Distributed File System)分布式文件系统,解决分布式存储MapReduce分布式计算框架YARN分布式资源管理系统Hadoop2.x中引入Common支持所有其他模块的公共工具程序二.HDFS架构三.HDFS组成角色及其功能原创 2020-09-15 19:22:55 · 294 阅读 · 0 评论 -
ZooKeeper安装配置
一.解压Zookeeper安装包链接:链接:https://pan.baidu.com/s/1Aofh_Jcrw1d8GogQUoE2kA提取码:12341.将安装包上传到opt目录下,解压tar -zxvf zookeeper-3.4.6.tar.gz2.输入命令改名mv zookeeper-3.4.6 zkpr3.在/opt/zkpr/这个目录下创建zkdata、zkdatalogs文件夹mkdir zkdatamkdir zkdatalogs4.重命名/opt/zkpr/co原创 2020-09-15 18:53:12 · 175 阅读 · 0 评论 -
分布式应用协调服务ZooKeeper
分布式应用协调服务ZooKeeper一.ZooKeeper简介二.ZooKeeper的数据结构三.ZooKeeper客户端命令四.ZooKeeper角色五.ZooKeeper选举机制六.Hadoop高可用集群的搭建一.ZooKeeper简介ZooKeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目ZooKeeper=文件系统+通知机制ZooKeeper从设计模式上来看是一个基于观察者模式设计的分布式鼓舞管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册一旦数原创 2020-09-15 16:05:28 · 209 阅读 · 0 评论 -
分布式资源调度框架YARN
分布式资源调度框架YARN一.YARN概述二.YARN的基本构架核心组件三.ResourceManager四.Nodemanager五.ApplicationMaster六.Container七.YARN的工作机制八.YARN上提交MapReduce程序九.YARN组员调度器十.YARN常用命令一.YARN概述yarn的核心思想是将资源管理和任务的监控和调度分离通过的资源管理系统,可为不同的应用(MapReduce.Spark,Flink等)提供统一的资源管理和调度它的引入为集群在利用率.资源统一原创 2020-09-15 15:21:09 · 250 阅读 · 0 评论 -
Hive(单机版)安装配置教程
Hive安装一.需前置安装好hadoop及mysql二.Hive安装步骤一.需前置安装好hadoop及mysqlhadoop安装链接:Hadoop安装mysql安装链接:Linux系统mysql安装二.Hive安装步骤1.将hive压缩文件上传至software文件夹中hive压缩文件获取链接链接:https://pan.baidu.com/s/1Et-NjtFrxXd5jAF6PI2kOQ提取码:12342.将hive压缩文件解压至opt目录下输入tar -zxvf hive-1.1原创 2020-09-13 10:38:10 · 783 阅读 · 0 评论 -
Hbase安装教程(单机版)
一.Hbase安装前提条件a) 前置条件最少安装了Hadoop(如果只是安装单机版hbase,zookeeper使用hbase内置的即可)如果需要安装伪分布式或完整分布式则需要先安装zookeeperb) 下载hbase并解压链接: https://pan.baidu.com/s/18yS4V33qeKgCHely0It4Lw提取码: q2vu二.文件配置1.将Hbase他所报文件上传至Moba的根目录下的software文件夹中(直接拖进去)2.解压Hbase并移动到/opt目录下tar原创 2020-09-13 07:21:06 · 1128 阅读 · 1 评论 -
大数据概况及Hadoop生态系统
大数据概况及Hadoop生态系统一级目录二级目录三级目录一.什么是大数据二.大数据特征(4V)三.Hadoop四.Zookeeper五.Hadoop架构六.HDFS特点七.HDFS命令行八.HDFS角色九.HDFS构架十.HDFS副本机制十一.HDFS高可用十二.HDFS读文件十三.HDFS写文件十四.HDFS文件格式一级目录二级目录三级目录一.什么是大数据大数据是指无法在一定时间内使用常规软件工具对其进行内容的抓取,管理和处理的数据集合二.大数据特征(4V)(1)大数据量:90%的数据是过去原创 2020-09-10 07:26:48 · 128 阅读 · 0 评论