树很懒~
码龄5年
关注
提问 私信
  • 博客:61,991
    61,991
    总访问量
  • 40
    原创
  • 569,042
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2020-06-15
博客简介:

little_sloth的博客

查看详细资料
个人成就
  • 获得42次点赞
  • 内容获得10次评论
  • 获得157次收藏
  • 代码片获得283次分享
创作历程
  • 40篇
    2020年
成就勋章
TA的专栏
  • 大数据
    28篇
  • hive
    11篇
  • linux
    16篇
  • Hadoop
    8篇
  • HBase
    4篇
  • sqoop
    2篇
  • 数据库
    4篇
  • Flume
    1篇
  • spark
    1篇
  • scala
    1篇
  • Phoenix
    1篇
  • ELK集群
    2篇
  • ELK
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flume自定义拦截器--idea为例

Flume自定义拦截器–idea为例文章目录Flume自定义拦截器--idea为例一、新建maven项目二、拦截器逻辑编写三、配置 jar包四、 配置 flume 文件五、 运行程序一、新建maven项目maven建项目参考:https://blog.csdn.net/little_sloth/article/details/107026934导入依赖包<dependency> <groupId>org.apache.flume</groupId>
原创
发布博客 2020.08.17 ·
569 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark安装--单机

spark安装上传安装包解压vi /etc/profileexport SPARK_HOME=/opt/sparkexport PATH=SPARKHOME/bin:SPARK_HOME/bin:SPARKH​OME/bin:PATHcp ./conf/spark-env.sh.template ./conf/spark-env.shvi ./conf/spark-env.shexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop#使 spark 运行
原创
发布博客 2020.08.06 ·
236 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala相关函数

addString() :将数组中的元素逐个添加到 StringBuilder 中val a=List(1,2,3,4)
原创
发布博客 2020.08.06 ·
2936 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop之数据迁移

Sqoop一、Soop概述1.定义Soop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到Hadoop( HDFS、HIve、HBase)从Hadoop导出数据到RDBMS将导入或导出命令翻译成MapReduce程序来并行操作和容错2.目标用户系统管理员、数据库管理员大数据分析师、大数据开发工程师等二、导数据2.1 从RDB导入数据到HDFS2.1.1 导入表到HDFSsqoop import --connect jdbc:mysql://hadoop
原创
发布博客 2020.07.24 ·
500 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Sqoop之搭建

Sqoop之搭建安装 Sqoop 的前提是已经具备 Java 和 Hadoop、 Hive、 ZooKeeper、 HBase 的环境1 下载并解压1.1上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚拟机中1.2 解压 sqoop 安装包到指定目录, tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt改名 mv sqoop-1.4.6-cdh5.14.2 sqoop --可以不改1.3 配置环境变量 vi /etc
原创
发布博客 2020.07.24 ·
134 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Phoenix(安装及使用)

一、Phoenix概述Phoneix简介构建在HBase上的SQL层使用标准SQL在HBase中管理数据使用JDBC来创建表,插入数据、对HBase数据进行查询Phoenix JDBC Driver容易嵌入到支持JDBC的程序中Phoenix支持类SQL语法Phoenix无法代替RDBMS原因:缺乏完整性约束,很多领域尚不成熟Phoenix使HBase更易用Phoenix支持的关键字类型Standard SQL Data Types --标准SQL 数据类型SELECT, UPS
原创
发布博客 2020.07.24 ·
858 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase之基本操作命令

HBase基本操作命令一、基本命令version —查看版本信息status —查看状态whoami ?help —查看帮助文档二、表操作命令2.1 创建表 create '表名', {NAME=>'addr'}, {NAME=>'order'}2.2 列出所有表 list2.3 查看表信息 desc '表名'2.4 判断表是否存在 exists '表名'2.5 表中插入数据语法 put ’<table
原创
发布博客 2020.07.23 ·
861 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

简述Hbase

一、HBase概述HBase是一个领先的NoSQL数据库是一个面向列存储的NoSQL数据库是一个分布式Hash Map,底层数据是Key-Value格式基于Google Big Table论文使用HDFS作为存储并利用其可靠性HBase特点数据访问速度快,响应时间约2-20毫秒支持随机读写,每个节点20k~100k+ ops/s可扩展性,可扩展到20,000+节点高并发二、HBase 应用场景增量数据-时间序列数据特点:高容量,高速写入HBase之上有OpenTSDB模块,
原创
发布博客 2020.07.23 ·
485 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

简述Hive与HBase的集成

Hive与HBase的集成文章目录Hive与HBase的集成一、Hive与HBase对比二、Hive与HBase集成使用场景三、 HBase 与 Hive 集成使用一、Hive与HBase对比1. Hive(1)数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以方便使用 HQL 去管理查询。(2)用于数据分析、清洗Hive 适用于离线的数据分析和清洗,延迟较高。(3)基于 HDFS、 MapReduceHive 存储的数据依旧在 Dat
原创
发布博客 2020.07.23 ·
246 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive之性能优化

hive之性能优化
原创
发布博客 2020.07.20 ·
523 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive之高级查询

hive之高级查询一、Hive的数据查询使用方法类似于MySQL,关键字和MySQL一样,不区分大小写limit用于控制输出的行数where —在group by之前,可以没有指定条件对数据进行筛选group by子句对查询的数据进行分组having子句对分组后数据进行进一步的条件筛选,与MySQL的用法一样,只能用在group by之后CTE和嵌套查询1)CTEWITH t1 AS (SELECT …) SELECT * FROM t1;嵌套查询SELECT * F
原创
发布博客 2020.07.19 ·
906 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive系列之窗口函数

hive系列之窗口函数文章目录hive系列之窗口函数一、窗口函数二、常用窗口函数2.1 排序2.1.1 NTILE2.1.2 rank()2.1.3 dense_rank()2.1.4 row_number()2.2 聚合2.3 分析2.3.1 LAG和LEAD函数2.3.2 first_value和last_value函数一、窗口函数窗口函数窗口函数是一组特殊函数,扫描多个输入行来计算每个输出值,为每行数据生成一行结果;可以通过窗口函数来实现复杂的计算和聚合基本语法select F
原创
发布博客 2020.07.19 ·
409 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive常用基础命令

Hive常用基础命令一、打开命令行窗口有两种工具:Beeline和Hive命令行beeline1)启动元数据库(此步可省略)hive --service metastore (后台启动:nohup hive --service metastore &)2)启动hiveserver2hive --service hiveserver2 (后台显启动:nohup hive --service hiveserver2 &)3)启动beelinbeeline -u jdbc:hi
原创
发布博客 2020.07.19 ·
618 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive的四个排序方法

一、 order byorder by 是要对输出的结果进行全局排序,这就意味着只有一个reduce task时才能实现(多个reducer无法保证全局有序)但是当数据量过大的时候,效率就很低,速度会很慢。二、sort bysort by 不是全局排序,只保证了每个reduce task中数据按照指定字段和排序方式有序排列,是局部排序。reduce task 的数量可以通过 set mapred.reduce.tasks=[num] 来设置。三、distribute bydistribute by
原创
发布博客 2020.07.19 ·
2792 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

hive之视图

hive之视图一、视图定义:通过隐藏子查询、连接和函数来简化查询的逻辑结构,是虚拟表,从真实表中选取数据;只保存定义,不存储数据, 如果删除或更改基础表,则查询视图将失败,而且视图是只读的,不能插入或装载数据应用场景1)将指定的数据提供给用户,保护数据隐私2)简化查询语句复杂的场景二、视图表创建视图CREATE VIEW view_name AS SELECT 。。。。; ps: 创建视图支持 CTE, ORDER BY, LIMIT, JOIN 等– 查找视图 SHO
原创
发布博客 2020.07.19 ·
862 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive之分桶系列

hive之分桶系列一、分桶定义桶是对数据范围更细的划分。针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。作用1) 提高了查询速度2) 使抽样(sampling)更高效二、分桶表创建分桶表create table student_buckets(id int ,name string) clustered by (id) into 4 buckets //比普通建表多一个这个stored as textfile;开启分桶设置s
原创
发布博客 2020.07.19 ·
156 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive分区——静态分区和动态分区

hive分区——静态分区和动态分区语法、区别及使用场景一、 Hive以及分区简介hivehive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive分区hive 为了避免全表查询,从而引进分区,将数据进行划分,减少不必要的查询,从而提高效率。二、静态分区三、动态分区...
原创
发布博客 2020.07.13 ·
922 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

hive中内、外部表以及修改表操作

hive中内部表和外部表hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive的数据表分为内部表跟外部表。一、内部表(管理表)HDFS中为所属数据库目录下的子文件夹。数据完全由Hive管理。删除表(元数据)会删除数据创表语句:create table if not exists studennt(id int,name strin
原创
发布博客 2020.07.13 ·
3766 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

Mapreduce工作机制

Mapreduce工作机制文章目录Mapreduce工作机制一、MapReduce简介二、文件切片三、shuffle阶段四、reduce阶段一、MapReduce简介MapReduce是一种并行编程模型,将计算阶段分为两个阶段:Map阶段和Reduce阶段。首先把输入数据源分块,交给多个Map任务去执行,Map任务执行Map函数,根据某种规则对数据分类,写入本地硬盘。然后进入Reduce阶段,该阶段由Reduce函数把Map阶段具有相同key值的中间结果收集到相同Reduce结点进行合并处理,并将结
原创
发布博客 2020.07.11 ·
1234 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Hadoop高可用集群搭建----直接安装

Hadoop高可用集群的搭建一、搭建机器准备条件 一台centos7虚拟机 , 地址改为静态地址,以及关闭防火墙(systemctl disable firewalld)二、安装jdk配置免密登录ps: 先配置,单机时就要先配置,不要等集群的时候再配置,不然免密登录会让乱的怀疑人生ssh-keygen -t rsa -P "" cat /root/.ssh/id_rsa.pub > /root/.ssh/authorized_keys配置单机的hosts
原创
发布博客 2020.07.11 ·
346 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多