![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
树很懒~
这个作者很懒,什么都没留下…
展开
-
Flume自定义拦截器--idea为例
Flume自定义拦截器–idea为例文章目录Flume自定义拦截器--idea为例一、新建maven项目二、拦截器逻辑编写三、配置 jar包四、 配置 flume 文件五、 运行程序一、新建maven项目maven建项目参考:https://blog.csdn.net/little_sloth/article/details/107026934导入依赖包<dependency> <groupId>org.apache.flume</groupId>原创 2020-08-17 17:23:27 · 413 阅读 · 0 评论 -
spark安装--单机
spark安装上传安装包解压vi /etc/profileexport SPARK_HOME=/opt/sparkexport PATH=SPARKHOME/bin:SPARK_HOME/bin:SPARKHOME/bin:PATHcp ./conf/spark-env.sh.template ./conf/spark-env.shvi ./conf/spark-env.shexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop#使 spark 运行原创 2020-08-06 17:34:45 · 211 阅读 · 0 评论 -
scala相关函数
addString() :将数组中的元素逐个添加到 StringBuilder 中val a=List(1,2,3,4)原创 2020-08-06 17:15:11 · 658 阅读 · 0 评论 -
Sqoop之数据迁移
Sqoop一、Soop概述1.定义Soop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到Hadoop( HDFS、HIve、HBase)从Hadoop导出数据到RDBMS将导入或导出命令翻译成MapReduce程序来并行操作和容错2.目标用户系统管理员、数据库管理员大数据分析师、大数据开发工程师等二、导数据2.1 从RDB导入数据到HDFS2.1.1 导入表到HDFSsqoop import --connect jdbc:mysql://hadoop原创 2020-07-24 09:10:21 · 284 阅读 · 1 评论 -
Sqoop之搭建
Sqoop之搭建安装 Sqoop 的前提是已经具备 Java 和 Hadoop、 Hive、 ZooKeeper、 HBase 的环境1 下载并解压1.1上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚拟机中1.2 解压 sqoop 安装包到指定目录, tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt改名 mv sqoop-1.4.6-cdh5.14.2 sqoop --可以不改1.3 配置环境变量 vi /etc原创 2020-07-24 08:39:05 · 91 阅读 · 0 评论 -
Phoenix(安装及使用)
一、Phoenix概述Phoneix简介构建在HBase上的SQL层使用标准SQL在HBase中管理数据使用JDBC来创建表,插入数据、对HBase数据进行查询Phoenix JDBC Driver容易嵌入到支持JDBC的程序中Phoenix支持类SQL语法Phoenix无法代替RDBMS原因:缺乏完整性约束,很多领域尚不成熟Phoenix使HBase更易用Phoenix支持的关键字类型Standard SQL Data Types --标准SQL 数据类型SELECT, UPS原创 2020-07-24 08:38:08 · 681 阅读 · 0 评论 -
简述Hbase
一、HBase概述HBase是一个领先的NoSQL数据库是一个面向列存储的NoSQL数据库是一个分布式Hash Map,底层数据是Key-Value格式基于Google Big Table论文使用HDFS作为存储并利用其可靠性HBase特点数据访问速度快,响应时间约2-20毫秒支持随机读写,每个节点20k~100k+ ops/s可扩展性,可扩展到20,000+节点高并发二、HBase 应用场景增量数据-时间序列数据特点:高容量,高速写入HBase之上有OpenTSDB模块,原创 2020-07-23 19:54:32 · 453 阅读 · 0 评论 -
简述Hive与HBase的集成
Hive与HBase的集成文章目录Hive与HBase的集成一、Hive与HBase对比二、Hive与HBase集成使用场景三、 HBase 与 Hive 集成使用一、Hive与HBase对比1. Hive(1)数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以方便使用 HQL 去管理查询。(2)用于数据分析、清洗Hive 适用于离线的数据分析和清洗,延迟较高。(3)基于 HDFS、 MapReduceHive 存储的数据依旧在 Dat原创 2020-07-23 17:03:03 · 164 阅读 · 0 评论 -
hive之性能优化
hive之性能优化原创 2020-07-20 08:34:02 · 326 阅读 · 0 评论 -
hive之高级查询
hive之高级查询一、Hive的数据查询使用方法类似于MySQL,关键字和MySQL一样,不区分大小写limit用于控制输出的行数where —在group by之前,可以没有指定条件对数据进行筛选group by子句对查询的数据进行分组having子句对分组后数据进行进一步的条件筛选,与MySQL的用法一样,只能用在group by之后CTE和嵌套查询1)CTEWITH t1 AS (SELECT …) SELECT * FROM t1;嵌套查询SELECT * F原创 2020-07-19 18:05:45 · 785 阅读 · 0 评论 -
hive系列之窗口函数
hive系列之窗口函数文章目录hive系列之窗口函数一、窗口函数二、常用窗口函数2.1 排序2.1.1 NTILE2.1.2 rank()2.1.3 dense_rank()2.1.4 row_number()2.2 聚合2.3 分析2.3.1 LAG和LEAD函数2.3.2 first_value和last_value函数一、窗口函数窗口函数窗口函数是一组特殊函数,扫描多个输入行来计算每个输出值,为每行数据生成一行结果;可以通过窗口函数来实现复杂的计算和聚合基本语法select F原创 2020-07-19 18:04:43 · 206 阅读 · 0 评论 -
Hive常用基础命令
Hive常用基础命令一、打开命令行窗口有两种工具:Beeline和Hive命令行beeline1)启动元数据库(此步可省略)hive --service metastore (后台启动:nohup hive --service metastore &)2)启动hiveserver2hive --service hiveserver2 (后台显启动:nohup hive --service hiveserver2 &)3)启动beelinbeeline -u jdbc:hi原创 2020-07-19 14:51:57 · 266 阅读 · 0 评论 -
hive的四个排序方法
一、 order byorder by 是要对输出的结果进行全局排序,这就意味着只有一个reduce task时才能实现(多个reducer无法保证全局有序)但是当数据量过大的时候,效率就很低,速度会很慢。二、sort bysort by 不是全局排序,只保证了每个reduce task中数据按照指定字段和排序方式有序排列,是局部排序。reduce task 的数量可以通过 set mapred.reduce.tasks=[num] 来设置。三、distribute bydistribute by原创 2020-07-19 14:50:09 · 2629 阅读 · 0 评论 -
hive之分桶系列
hive之分桶系列一、分桶定义桶是对数据范围更细的划分。针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。作用1) 提高了查询速度2) 使抽样(sampling)更高效二、分桶表创建分桶表create table student_buckets(id int ,name string) clustered by (id) into 4 buckets //比普通建表多一个这个stored as textfile;开启分桶设置s原创 2020-07-19 12:27:14 · 134 阅读 · 0 评论 -
hive分区——静态分区和动态分区
hive分区——静态分区和动态分区语法、区别及使用场景一、 Hive以及分区简介hivehive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive分区hive 为了避免全表查询,从而引进分区,将数据进行划分,减少不必要的查询,从而提高效率。二、静态分区三、动态分区...原创 2020-07-13 08:39:43 · 753 阅读 · 0 评论 -
hive中内、外部表以及修改表操作
hive中内部表和外部表hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive的数据表分为内部表跟外部表。一、内部表(管理表)HDFS中为所属数据库目录下的子文件夹。数据完全由Hive管理。删除表(元数据)会删除数据创表语句:create table if not exists studennt(id int,name strin原创 2020-07-13 08:38:47 · 3537 阅读 · 0 评论 -
Mapreduce工作机制
Mapreduce工作机制文章目录Mapreduce工作机制一、MapReduce简介二、文件切片三、shuffle阶段四、reduce阶段一、MapReduce简介MapReduce是一种并行编程模型,将计算阶段分为两个阶段:Map阶段和Reduce阶段。首先把输入数据源分块,交给多个Map任务去执行,Map任务执行Map函数,根据某种规则对数据分类,写入本地硬盘。然后进入Reduce阶段,该阶段由Reduce函数把Map阶段具有相同key值的中间结果收集到相同Reduce结点进行合并处理,并将结原创 2020-07-11 23:22:42 · 1122 阅读 · 0 评论 -
ELK之集群搭建
ELK集群的搭建一、复制虚拟机ps: 复制虚拟机必须在关闭状态下复制,并且是完全复制(此虚拟机是ELK安装配置已完成的,详情请见:https://blog.csdn.net/little_sloth/article/details/106840834)ps:注意是完全复制,需要勾选重新初始化所有网卡的MAC地址,并且虚拟机的名字不区分大小写,备份的时候需要注意二、修改主机名和主机列表1.网络地址针对复制的虚拟机,打开登录输入:vi /etc/sysconfig/network-scri原创 2020-06-19 17:25:10 · 214 阅读 · 0 评论 -
Linux中Elasticsearch索引的简单操作
一、PUT操作put一般用于插入,也可用于更新,但是会使得更新的字段替换原有的所有字段,如果无需全部替换不建议使用用法PUT 索引/类型PUT 索引/类型/类型的编号{Json串}PostPost /索引/类型/编号/_update{ “doc”:{ 列名:值//精准修改}}Post /_bulk —批量操作----必须写在同一行{“create“:{“_index”:索引,“_type”:类型,”_id”:编号}}{json串}{“原创 2020-06-24 00:27:27 · 2981 阅读 · 0 评论 -
Hadoop和Hadoop集群的安装和配置
hadoop和hadoop集群的安装和配置文章目录hadoop和hadoop集群的安装和配置一、安装centos7.0二、hadoop安装前配置三、安装以及配置Hadoop环境四、启动Hadoop四、测试五、Hadoop集群配置一、安装centos7.0安装方式详见:https://blog.csdn.net/little_sloth/article/details/106785511二、hadoop安装前配置安装完虚拟之后,使用moba进行后续操作1 . 配置免登录:1) 生成密钥:ss原创 2020-06-26 00:41:32 · 458 阅读 · 0 评论 -
Zookeeper在Hadoop集群下的安装
# Zookeeper在Hadoop集群下的安装目录# Zookeeper在Hadoop集群下的安装## 一、Hadoop集群的配置三、启动Zookeeper## 一、Hadoop集群的配置具体步骤参考:[https://blog.csdn.net/little_sloth/article/details/106964187]()ps:vbox环境和vmWare的安装步骤是一样的## 二、zookeeper安装及配置(集群下的虚拟机都需要)1. 将zookeeper安装包拖入sof原创 2020-06-28 17:59:43 · 388 阅读 · 0 评论 -
Hbase在Hadoop集群中的搭建
Hbase在Hadoop组件中的搭建一.安装HBase之前的环境搭建Hadoop集群能正常运行安装参考:https://blog.csdn.net/little_sloth/article/details/106964187Zookeeper环境能正常运行安装参考:https://blog.csdn.net/little_sloth/article/details/107005083二.HBase的安装与环境的配置下载安装包将安装包拖入software文件夹中将压缩包解压到opt目录原创 2020-06-28 19:00:14 · 240 阅读 · 0 评论 -
Hadoop高可用集群搭建----直接安装
Hadoop高可用集群的搭建一、搭建机器准备条件 一台centos7虚拟机 , 地址改为静态地址,以及关闭防火墙(systemctl disable firewalld)二、安装jdk配置免密登录ps: 先配置,单机时就要先配置,不要等集群的时候再配置,不然免密登录会让乱的怀疑人生ssh-keygen -t rsa -P "" cat /root/.ssh/id_rsa.pub > /root/.ssh/authorized_keys配置单机的hosts原创 2020-07-11 20:32:52 · 217 阅读 · 0 评论 -
windows本地机器配置hadoop
1. 下载hadoop压缩包并解压到相应文件夹中—相当于安装路径,后面会用到2. 将hadoopBin.rar解压,并将所有文件复制到hadoop解压文件夹下面的bin目录里解压后的hadoopBin复制后的:3. 将hadoop.dll文件复制到C:\Windows\System32 -----需要配置到系统文件中需要复制文件粘贴位置:4. 配置hadoop环境变量路径是:hadoop安装目录下的bin目录还需要新建一个hadoop_home路径,按如下截图新建一个原创 2020-07-02 19:04:07 · 3801 阅读 · 0 评论 -
Hive初始化数据库异常处理
初始化数据库时报如下错误 :org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.2020-06-30 08:25:09,985 WARN [main] util.HeapMemorySizeUtil: hbase.regionserver.global.memstore.upperLimit is deprecated by hbase.regionserver.global.memstore.原创 2020-06-30 14:25:01 · 1068 阅读 · 0 评论 -
HDFS文件的创建、上传、下载、删除(基于本机API调用)
HDFS文件的创建、上传、下载、删除(基于本机)一、完整的一个Hadoop环境安装参考启动hadoop程序二、新建maven工程新建参考三、文件操作ps:针对文件的操作与Linux虚拟机的操作略有不同Linux虚拟机的操作文件的创建 @Test public void create() throws Exception{ Configuration cfg = new Configuration(); //创建配置文件 FileSystem原创 2020-06-30 13:45:40 · 1061 阅读 · 0 评论 -
Hadoop环境下用java代码实现hdfs远程文件的上传和下载
Hadoop环境下用java代码实现hdfs远程文件的上传和下载文章目录Hadoop环境下用java代码实现hdfs远程文件的上传和下载一、新建maven工程二、文件的上传三、文件的下载四、生成jar包五、导入jar包并执行操作一、新建maven工程过程参考:此处需要的jar包有:<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hado原创 2020-06-30 08:46:10 · 1870 阅读 · 2 评论 -
Hive在Hadoop集群下的安装
Hive在adoop集群下的安装文章目录Hive在adoop集群下的安装一、hive安装前必备步骤二、安装Hive三、配置Hive的环境变量四、测试连接一、hive安装前必备步骤Hadoop集群能正常运行安装参考MySql安装 安装参考需要增加以下步骤:1)输入 :my -uroot -pok 启动数据库2)输入:use mysql创建用户:create user 'bigdata'@'hadoop001' IDENTIFIED BY 'ok';4)创建数据库:原创 2020-06-29 00:23:10 · 240 阅读 · 0 评论