RZH_long
码龄4年
关注
提问 私信
  • 博客:23,970
    23,970
    总访问量
  • 51
    原创
  • 1,278,444
    排名
  • 17
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2021-01-17
博客简介:

RZH_long的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    416
    当月
    0
个人成就
  • 获得13次点赞
  • 内容获得0次评论
  • 获得11次收藏
创作历程
  • 1篇
    2024年
  • 50篇
    2021年
成就勋章
TA的专栏
  • hadoop
    26篇
  • java基础
    19篇
  • linux
    4篇
  • 虚拟机
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flume的配置和使用

flume的安装比较简单,在以后的hadoop环境上安装一台发送到其他机器上去即可tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /export/servers/cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/confcp flume-env.sh.template flume-env.shvimflume-env.shexport JAVA_HOME=/export/servers/...
原创
发布博客 2024.07.24 ·
274 阅读 ·
9 点赞 ·
0 评论 ·
3 收藏

HIVE的基本使用05(HSQL调优)

1.fetch抓取select * from A;这种语句可以直接读取文件,不走MR程序会快很多;不走MR程序的情况:在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。设置conversion参数后再执行sql:hive (default)> set hive.fetch.task.
原创
发布博客 2021.12.20 ·
1805 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

HIVE的基本使用05(指定存储格式,在hive创建表那里提过,此处详细解释)

行存储的特点:查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。列存储的特点:因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;ORC和PARQUET是基于列式存储的(实际生产一般用这两种和sn...
原创
发布博客 2021.12.20 ·
606 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE的基本使用05(压缩参数的指定)

压缩格式jar包目录一览表 压缩格式 对应的编码/解码器 DEFLATE org.apache.hadoop.io.compress.DefaultCodec gzip org.apache.hadoop.io.compress.GzipCodec bzip2 org.apache.hadoop.io.compress.BZip2Codec
原创
发布博客 2021.12.20 ·
413 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE的基本使用05(自定义java函数UDF) demo

maven导入jar包<repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><dependencies>...
原创
发布博客 2021.12.20 ·
1125 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE的基本使用04(数据查询,以及优化)

select的语法概述(掌握每个关键字的含义和使用):SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list] ]...
原创
发布博客 2021.12.20 ·
141 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE的基本使用03(数据插入导入导出)

--------------------------------------------数据导入--------------------------------------------------1.直接向分区表中插入数据(强烈不推荐使用,会调用MR程序,非常慢)insert into table score3 partition(month ='201807')values ('001','002','100');2.通过load方式加载数据load data local inpath .
原创
发布博客 2021.12.15 ·
206 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE的基本使用02(表的创建,维护,加载数据)

-----------------------------创建数据库表语法(熟悉关键字)-----------------------------------------CREATE [EXTERNAL] TABLE[IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY(col_name data_t...
原创
发布博客 2021.12.15 ·
249 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE的基本使用01(连接hive,创建数据库)

--------------------------------------hive的交互:--------------------------------------------------1.Hive交互shell(不常用)cd/export/servers/hive-1.1.0-cdh5.14.0bin/hive2.第二种交互方式:Hive JDBC服务(一般后台启动输出日志到文件,常用)启动服务端,客户端进行连接。前台启动cd /export/servers/hi..
原创
发布博客 2021.12.15 ·
1223 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

json字符串与java对象的互相转换

JSONObject 转 JSON 字符串JSONObject jsonObject = new JSONObject(); jsonObject.put("name", "wjw"); jsonObject.put("age", 22);jsonObject.put("sex", "男");jsonObject.put("school", "商职");String jsonStr = JSONObject.toJSONString(jsonObject);System.out.pr..
原创
发布博客 2021.12.13 ·
370 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive基于hadoop安装Mysql存储元数据

1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/直接启动bin/hivecd ../servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;缺点:多个地方安装hive后,每一个hive是拥有一套自己的元数据,大家的库、表就不统一;使用mysql共享hive元数据..
原创
发布博客 2021.12.07 ·
214 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MR自定义分组获取TopN

package com.cn.demo_groupTopN;import org.apache.hadoop.io.WritableComparable;import org.apache.hadoop.io.WritableComparator;/** * 继承WritableComparator类,重写compare 方法 相同的订单ID认为相同 */public class MyGroupCompactor extends WritableComparator { /*.
原创
发布博客 2021.12.07 ·
918 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

自定义OutputFormat

package com.cn.demo_outputformat;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hado.
原创
发布博客 2021.11.30 ·
686 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

自定义InputFormat

package com.cn.demo_xwjhb;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.BytesWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.mapreduce.InputSplit;import org.apache.hadoop.mapreduce.JobContext;import org.apa.
原创
发布博客 2021.11.30 ·
137 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

reduce端的join算法和map端的join算法

------------------------------------reduce端join-------------------------------package demo06.reducejoin;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Map.
原创
发布博客 2021.11.23 ·
455 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop的压缩方式snappy

文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输在重新编译过hadoop的c源码后才可以用谷歌的snappy压缩。我们可以使用bin/hadoop checknative 来查看我们编译之后的hadoop支持的各种压缩,如果出现openssl为false,那么就在线安装一下依赖包//查看压缩支持情况 bin/hadoop checknative//在线安装 yum install openssl-devel这种压缩对应的java类 压缩格式 ...
原创
发布博客 2021.11.23 ·
2087 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hadoop分区

package demo04.flow;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;/** * 分区继承于这个类,重写getPartition方法返回数字根据数字分到各个reduce,此处传入的是K2,V2 */public class FlowPartion extends Partitioner<Text, FlowNum> { @Override.
原创
发布博客 2021.11.23 ·
774 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop按照上行流量进行排序

package demo05.flowOrder;import demo04.flow.FlowNum;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 排序和序列化要实现WritableComparable这个接口,重写compareTo和write,readFields方法.
原创
发布博客 2021.11.23 ·
1241 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop二次排序,自定义计数器

import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 序列化和比较: * 序列化实现:Writable * 比较实现:Comparable * 既序列化又比较实现:WritableComparable 后面要加泛型 */public class SortWritable i.
原创
发布博客 2021.11.21 ·
669 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop分区

package com.a.b.partion_demo;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;public class MyPartioner extends Partitioner<Text,NullWritable> { @Override public in.
原创
发布博客 2021.11.21 ·
603 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多