自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

东城庞太师

不勤于始,将悔于终。

  • 博客(42)
  • 资源 (6)
  • 收藏
  • 关注

原创 java API操作hbase连接出错

原因:服务启动不全解决:检查服务开启状态--hadoop集群开启|zookeeper集群开启|hbase服务开启

2020-02-29 21:13:55 359

原创 HBase的启动和停止的命令

启动HBase集群:bin/start-hbase.sh单独启动一个HMaster进程:bin/hbase-daemon.sh start master单独停止一个HMaster进程:bin/hbase-daemon.sh stop master单独启动一个HRegionServer进程:bin/hbase-daemon.sh start regionserver单独停止一...

2020-02-27 20:41:10 1113

原创 cookie如何保证数据重复?

cookie如何保证数据重复?时间戳 ip 客户端信息 MD5加密uid = ngx.md5(ngx.now() .. ngx.var.remote_addr .. ngx.var.http_user_agent)

2020-02-15 12:13:04 266

原创 azkaban启动错误

启动azkaban错误

2020-02-11 19:55:36 1202

原创 linux的 cat 的命令

linux 显示一个文件的某几行2.从第3000行开始,显示1000行。即显示3000~3999行cat filename | tail -n +3000 | head -n 10002.显示1000行到3000行cat filename| head -n 3000 | tail -n +1000*注意两种方法的顺序分解:tail -n 1000:显示最后1000行ta...

2020-02-11 17:07:06 284

原创 flume负载均衡案例

1.node01上配置:exec-avro.conf#agent1 nameagent1.channels = c1agent1.sources = r1agent1.sinks = k1 k2#set gruopagent1.sinkgroups = g1#set channelagent1.channels.c1.type = memoryagent1.channel...

2020-02-10 18:04:19 317

原创 linux 远程复制命令 scp

复制文件命令:scp /root/a.txtroot@node02:/root复制文件夹命令:scp -r /export/servers/flume root@node02:/export/servers/flume

2020-02-10 17:47:28 159

原创 利用flume监控目录下生成日志并设置间隔时间生成日志的详细操作

先确认环境配置好,能正常监听! 新建目录:/root/logs 在/flume/conf目录下新建配置文件tail-hdfs.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources....

2020-02-09 16:52:05 955

原创 利用flume监控目录下生成文件的详细操作

先确认环境配置好,能正常监听! 新建目录:/root/logs23.在/flume/conf目录下新建配置文件spooldir-hdfs.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.s...

2020-02-09 16:11:18 853

原创 提示-bash: telnet:localhost command not found 的解决方法

原因:没有安装telnet服务解决办法:修改配置文件 安装服务1.进到/etc/yum.repos.d目录下,编辑CentOS-Base.repo文件,注意这几个baseurl一定要配置好!2.先查看telnet服务情况:yum list telnet*(默认会自动检查,待检查进行完)3.安装命令:yum install telnet-server.x86_6...

2020-02-09 15:48:38 2053

原创 vmware还原虚拟机很慢、打开系统很慢、运行很慢的解决办法

问题描述:如下图:还原虚拟机很慢!原因:软件被防火墙阻截解决:关闭防火墙,并改变参数设置步骤:1.以win10为例,关闭防火墙2.选择启用或关闭Windows Defender防火墙3. 专用网络设置和公用网络设置都选择关闭防火墙4.选择 允许应用或功能通过Windows Defender防火墙(此处注意,本操作之前需要先关闭防火墙,并且关闭VMw...

2020-02-08 09:36:28 15341 9

原创 hive中数据的存储格式

hive默认的存储格式是:text file,还支持一些著名的列式存储格式:ORC PAQUET 注意:ORC、PARQUET格式无法通过load命令加载把text文件变出来,只能通过insert+select方法 把数据从其他表中查询出来 通过插入语句 在插入的过程中把格式变成ORC. ORC格式并不是纯粹的列式存储格式 仍然是首先根据行组(stripe 条纹)分割整个表,...

2020-02-07 21:35:52 383

原创 hive数据压缩的优点和缺点

hive数据压缩的优点和缺点优点:减少存储磁盘空间,降低单节点的磁盘IO。 减少网络传输带宽 。缺点:需要花费额外的时间/CPU做压缩和解压缩计算。常用压缩格式推荐使用:Snappy格式开启map输出压缩开启reduce输出压缩...

2020-02-07 21:31:06 1040

原创 hive调优常见策略

fetch抓取机制 通俗解释:在执行hive sql的时候 能不跑MapReduce程序尽量不跑MapReduce程序。直接针对表所对应的文件进行操作fetch默认是开启的。hive.fetch.task.conversion=more在下述三种情况下 sql 不执行MapReduce程序 直接针对文件操作。全局查找:select * from student_local;...

2020-02-07 21:23:14 270 1

原创 hive排序窗口函数三种方式对比

hive排序窗口函数三种方式:ROW_NUMBER() RANK() DENSE_RANK ()​​​​​​​原始数据:执行语句:SELECTcookieid,createtime,pv,RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn1,DENSE_RANK() OVER(PARTITION B...

2020-02-07 21:10:31 977

原创 hadoop hive窗口函数求和

聚合函数:例如sum()、avg()、max()等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。窗口函数:既能显示聚集前的数据,又能显示聚集后的数据。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组和排序功能。​ 窗口函数最重要的关键字是 partition by 和 order by。核心语法:over (partition by xxx...

2020-02-07 21:01:19 2737

原创 hive开启智能本地模式命令

SET hive.exec.mode.local.auto=true;

2020-02-07 20:55:03 379

原创 大数据操作之hive对json数据进行处理

原始json数据:[{"website":"www.it.cn","name":"helloword"},{"website":"cloud.it.com","name":"carbondata 中文文档"}]--第一步操作 把json数组中元素的分隔符 从,替换成为; 避免切割的时候产生歧义语句:select regexp_replace('[{"website":"www.i...

2020-02-06 17:42:44 472

原创 大数据hive操作行列转换之单列转多行

原始数据:a b 1,2,3c d 4,5,6建表:create table col2row_21(col1 string,col2 string,col3 string)row format delimitedfields terminated by '\t';表结构如下:+------------------+-----------------...

2020-02-06 17:30:40 928

原创 大数据hive操作行列转换之多行转单列

建表:create table row2col_1(col1 string,col2 string,col3 int)row format delimitedfields terminated by ',';表结构如下:+-----------------+-----------------+-----------------+--+| row2col_1.col1 | row...

2020-02-06 17:26:22 1564

原创 hive删除表命令

drop table if exists 表名;

2020-02-06 17:16:09 2911

原创 UDTF's are not supported outside the SELECT clause, nor nested in expressions (state=42000,code=1008

hive操作时,报错如下:原因:当使用UDTF函数的时候,hive只允许对拆分字段进行访问。正确命令:select explode(location) from test_message;错误命令:select name,explode(location) from test_message;如果想访问除了拆分字段以外 的字段,怎么办呢?用lateral view侧视图!...

2020-02-06 16:52:33 9599 1

原创 hive的爆炸函数UDTF-explode的注意事项

使用hive的爆炸函数UDTF-explode遇到的错误如下:Error: Error while compiling statement: FAILED: UDFArgumentException explode() takes an array or a map as a parameter (state=42000,code=40000)原因:该函数只能接受Array 或者map类型...

2020-02-06 16:11:14 2145

原创 hive自定义函数分类+UDF实例

hive自定义函数分为三类: UDF(User-Defined-Function)普通函数, 一进一出 UDAF(User-Defined Aggregation Function)聚合函数,多进一出 UDTF(User-Defined Table-Generating Functions)表生成函数, 一进多出 UDF实例 新建子模块hive_demo ...

2020-02-06 16:08:08 740

原创 hive的join语法【内连接、外连接、左连接、右连接、left semi join、cross join】

--原始两张表数据如下:+-------+---------+--+| a.id | a.name |+-------+---------+--+| 1 | a || 2 | b || 3 | c || 4 | d || 7 | y || 8 | u |+...

2020-02-05 17:39:40 2846

原创 hive操作时,order by和sort by的区别

sort by 负责分桶之后每隔分桶之内的排序order by负责的是全局排序 不会进行分桶操作 全局输出一个结果文件中。

2020-02-05 17:28:43 456

原创 hive操作时,如果想根据一个字段分桶, 再想根据另外一个字段进行排序怎么做?

错误语句:select * from student_local cluster by sno sort by sage;Error: Error while compiling statement: FAILED: SemanticException 1:51 Cannot have both CLUSTER BY and SORT BY clauses. Error encountered...

2020-02-05 17:28:11 732

原创 hive减少扫描全表的操作思路是什么?

思路:一次扫描 多次插入简称:多重插入普通插入:insert into table test_insert1 select id from source_table;insert into table test_insert2 select name from source_table;多重插入:from source_table ins...

2020-02-05 17:23:30 1550

原创 hive参数的三种配置方式

#方式1:conf/hive-site.xml#方式2:在启动服务的时候 bin/hive --service xx --hiveconf 参数#方式3;在会话中使用set 命令进行设置 set hive.exec.dynamic.partition=true;范围来看:xml影响最广。优先级来看:set命令优先级最高 覆盖之前的配置。尽量使用set命令来设置,对其他用户没...

2020-02-05 17:17:44 395

原创 hive为什么不用mysql而用load

hive操作时,如果使用insert+values进行数据插入,会非常慢 可以插入数据 但是效率不高。原因:底层hive会把插入语句编译成MapReduce程序来执行!为什么用load? 含义:加载装载数据 也是hive推荐的插入表数据的方式。 本质:加载操作是将结构化的数据文件移动到与 Hive表对应的位置(位于hdfs上)的纯复制/移动操作。 注意:在加载...

2020-02-05 17:16:11 690

原创 hive启动日志命令

hive启动日志命令bin/hive --service metstore --hiveconf hive.root.logger=DEBUG,console

2020-02-05 15:23:19 1230

原创 hadoop大数据之hive架构简单理解

2020-02-03 17:21:25 218

原创 数据仓库的简陋模型理解图

数据仓库:Data Warehouse数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。数据仓库的主要特征:面向主题的(Subject-Oriented )集成的(Integrate...

2020-02-03 16:39:19 453

原创 为什么MapReduce被有些人说垃圾?

MapReduce中的shuffle是mr程序执行的核心shuffle机制不断进行内存与磁盘的交互操作也是mr程序执行慢被诟病的地方。spark(内存迭代计算),解决了mr执行慢的问题。...

2020-02-03 15:43:23 380

原创 HDFS动态扩容的数据问题

问题描述:node04从node01上复制,hadoop也复制过来,/export/data元数据和块数据是一块复制过来的,datanode(node01),一定要将node04上的数据清空掉!步骤如下:...

2020-02-02 16:35:17 241

原创 MapReduce的输入输出和处理流程

MapReduce的输入和输出MapReduce框架运转在<key,value>键值对上,也就是说,框架把作业的输入看成是一组<key,value>键值对,同样也产生一组<key,value>键值对作为作业的输出,这两组键值对可能是不同的。一个MapReduce作业的输入和输出类型如下图所示:可以看出在整个标准的流程中,会有三组<key,value...

2020-02-02 16:08:11 5930

原创 MapReduce的框架结构

一个完整的MapReduce程序在分布式运行时有三类实例进程: MRAppMaster:负责整个程序的过程调度及状态协调 MapTask:负责map阶段的整个数据处理流程 ReduceTask:负责reduce阶段的整个数据处理流程 ...

2020-02-02 16:04:37 343

原创 MapReduce的分而治之,你真的懂吗?

分:Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。合:​ Reduce负责“合”,即对map阶段的结果进行全局汇总。MapReduce借鉴了函数式语言中的思想,用Map和Reduce两个函数提供了高层的并行编程抽象模型。 Map: 对一组数据元素进行某种重复式的处理; Red...

2020-02-02 15:58:51 2136 1

原创 关于MapReduce的三大阶段、八大步骤

mapreduce的三大阶段:map阶段:并行处理的阶段 shuffle阶段:从离开Mapper开启到进入Reduce之前的阶段 reduce阶段:汇总整理的阶段mapreduce的八大步骤设置MapReduce的输入InputFormat类型,默认为TextInputFormat 自定义map函数,得到TextInputFormat的k1,v1;经过处理后传出k2,v2 分区-...

2020-02-02 15:52:32 6651

原创 hadoop hdfs常用命令

查看文件hadoop fs -ls file:///root/hadoop fs -ls /user/hadoop/file1创建目录hadoop fs -mkdir –p /user/hadoop/dir1将单个src或多个srcs从本地文件系统复制到目标文件系统。-p:保留访问和修改时间,所有权和权限。-f:覆盖目的地(如果已经存在)hadoop fs -put -f l...

2020-02-02 15:25:17 454

40 个 SpringBoot 常用注解:让生产力爆表!

40 个 SpringBoot 常用注解:让生产力爆表!

2022-07-01

apache jmeter连接clickhouse所需jar包.zip

apache jmeter连接clickhouse所需jar包--共12个

2021-04-22

jdbc_clickhouse.zip

clickhouse通过jdbc连接

2021-03-04

三节点搭建clickhouse集群(含网络规划和软件版本信息).docx

从头开始搭建clickhouse集群

2021-01-20

批量生成有序数据程序java版本

批量生成有序数据程序java版本

2020-12-24

android实例(自己开发)

手动开发,android天气应用,初级。

2016-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除