2020年02月_大数据架构师Pony

原创 java API操作hbase连接出错

原因：服务启动不全解决：检查服务开启状态--hadoop集群开启|zookeeper集群开启|hbase服务开启

2020-02-29 21:13:55 359

原创 HBase的启动和停止的命令

启动HBase集群：bin/start-hbase.sh单独启动一个HMaster进程：bin/hbase-daemon.sh start master单独停止一个HMaster进程：bin/hbase-daemon.sh stop master单独启动一个HRegionServer进程：bin/hbase-daemon.sh start regionserver单独停止一...

2020-02-27 20:41:10 1113

原创 cookie如何保证数据重复？

cookie如何保证数据重复？时间戳 ip 客户端信息 MD5加密uid = ngx.md5(ngx.now() .. ngx.var.remote_addr .. ngx.var.http_user_agent)

2020-02-15 12:13:04 266

原创 linux的 cat 的命令

linux 显示一个文件的某几行2.从第3000行开始，显示1000行。即显示3000~3999行cat filename | tail -n +3000 | head -n 10002.显示1000行到3000行cat filename| head -n 3000 | tail -n +1000*注意两种方法的顺序分解：tail -n 1000：显示最后1000行ta...

2020-02-11 17:07:06 284

原创 flume负载均衡案例

1.node01上配置：exec-avro.conf#agent1 nameagent1.channels = c1agent1.sources = r1agent1.sinks = k1 k2#set gruopagent1.sinkgroups = g1#set channelagent1.channels.c1.type = memoryagent1.channel...

2020-02-10 18:04:19 317

原创 linux 远程复制命令 scp

复制文件命令：scp /root/a.txtroot@node02:/root复制文件夹命令：scp -r /export/servers/flume root@node02:/export/servers/flume

2020-02-10 17:47:28 159

原创利用flume监控目录下生成日志并设置间隔时间生成日志的详细操作

先确认环境配置好，能正常监听！新建目录：/root/logs 在/flume/conf目录下新建配置文件tail-hdfs.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources....

2020-02-09 16:52:05 955

原创利用flume监控目录下生成文件的详细操作

先确认环境配置好，能正常监听！新建目录：/root/logs23.在/flume/conf目录下新建配置文件spooldir-hdfs.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.s...

2020-02-09 16:11:18 853

原创提示-bash: telnet:localhost command not found 的解决方法

原因：没有安装telnet服务解决办法：修改配置文件安装服务1.进到/etc/yum.repos.d目录下，编辑CentOS-Base.repo文件，注意这几个baseurl一定要配置好！2.先查看telnet服务情况：yum list telnet*（默认会自动检查，待检查进行完）3.安装命令：yum install telnet-server.x86_6...

2020-02-09 15:48:38 2053

原创 vmware还原虚拟机很慢、打开系统很慢、运行很慢的解决办法

问题描述：如下图：还原虚拟机很慢！原因：软件被防火墙阻截解决：关闭防火墙，并改变参数设置步骤：1.以win10为例，关闭防火墙2.选择启用或关闭Windows Defender防火墙3. 专用网络设置和公用网络设置都选择关闭防火墙4.选择允许应用或功能通过Windows Defender防火墙（此处注意，本操作之前需要先关闭防火墙，并且关闭VMw...

2020-02-08 09:36:28 15341 9

原创 hive中数据的存储格式

hive默认的存储格式是：text file，还支持一些著名的列式存储格式：ORC PAQUET 注意：ORC、PARQUET格式无法通过load命令加载把text文件变出来，只能通过insert+select方法把数据从其他表中查询出来通过插入语句在插入的过程中把格式变成ORC. ORC格式并不是纯粹的列式存储格式仍然是首先根据行组（stripe 条纹）分割整个表，...

2020-02-07 21:35:52 383

原创 hive数据压缩的优点和缺点

hive数据压缩的优点和缺点优点：减少存储磁盘空间，降低单节点的磁盘IO。减少网络传输带宽。缺点：需要花费额外的时间/CPU做压缩和解压缩计算。常用压缩格式推荐使用：Snappy格式开启map输出压缩开启reduce输出压缩...

2020-02-07 21:31:06 1040

原创 hive调优常见策略

fetch抓取机制通俗解释：在执行hive sql的时候能不跑MapReduce程序尽量不跑MapReduce程序。直接针对表所对应的文件进行操作fetch默认是开启的。hive.fetch.task.conversion=more在下述三种情况下 sql 不执行MapReduce程序直接针对文件操作。全局查找：select * from student_local;...

2020-02-07 21:23:14 270 1

原创 hive排序窗口函数三种方式对比

hive排序窗口函数三种方式：ROW_NUMBER() RANK() DENSE_RANK ()原始数据：执行语句：SELECTcookieid,createtime,pv,RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn1,DENSE_RANK() OVER(PARTITION B...

2020-02-07 21:10:31 977

原创 hadoop hive窗口函数求和

聚合函数：例如sum()、avg()、max()等，这类函数可以将多行数据按照规则聚集为一行，一般来讲聚集后的行数是要少于聚集前的行数的。窗口函数：既能显示聚集前的数据，又能显示聚集后的数据。窗口函数又叫OLAP函数/分析函数，窗口函数兼具分组和排序功能。窗口函数最重要的关键字是 partition by 和 order by。核心语法：over (partition by xxx...

2020-02-07 21:01:19 2737

原创 hive开启智能本地模式命令

SET hive.exec.mode.local.auto=true;

2020-02-07 20:55:03 379

原创大数据操作之hive对json数据进行处理

原始json数据：[{"website":"www.it.cn","name":"helloword"},{"website":"cloud.it.com","name":"carbondata 中文文档"}]--第一步操作把json数组中元素的分隔符从,替换成为; 避免切割的时候产生歧义语句：select regexp_replace('[{"website":"www.i...

2020-02-06 17:42:44 472

原创大数据hive操作行列转换之单列转多行

原始数据：a b 1,2,3c d 4,5,6建表：create table col2row_21(col1 string,col2 string,col3 string)row format delimitedfields terminated by '\t';表结构如下：+------------------+-----------------...

2020-02-06 17:30:40 928

原创大数据hive操作行列转换之多行转单列

建表：create table row2col_1(col1 string,col2 string,col3 int)row format delimitedfields terminated by ',';表结构如下：+-----------------+-----------------+-----------------+--+| row2col_1.col1 | row...

2020-02-06 17:26:22 1564

原创 hive删除表命令

drop table if exists 表名;

2020-02-06 17:16:09 2911

原创 UDTF's are not supported outside the SELECT clause, nor nested in expressions (state=42000,code=1008

hive操作时，报错如下：原因：当使用UDTF函数的时候,hive只允许对拆分字段进行访问。正确命令：select explode(location) from test_message;错误命令：select name,explode(location) from test_message;如果想访问除了拆分字段以外的字段，怎么办呢?用lateral view侧视图！...

2020-02-06 16:52:33 9599 1

原创 hive的爆炸函数UDTF-explode的注意事项

使用hive的爆炸函数UDTF-explode遇到的错误如下：Error: Error while compiling statement: FAILED: UDFArgumentException explode() takes an array or a map as a parameter (state=42000,code=40000)原因：该函数只能接受Array 或者map类型...

2020-02-06 16:11:14 2145

原创 hive自定义函数分类+UDF实例

hive自定义函数分为三类： UDF（User-Defined-Function）普通函数，一进一出 UDAF（User-Defined Aggregation Function）聚合函数，多进一出 UDTF（User-Defined Table-Generating Functions）表生成函数，一进多出 UDF实例新建子模块hive_demo ...

2020-02-06 16:08:08 740

原创 hive的join语法【内连接、外连接、左连接、右连接、left semi join、cross join】

--原始两张表数据如下：+-------+---------+--+| a.id | a.name |+-------+---------+--+| 1 | a || 2 | b || 3 | c || 4 | d || 7 | y || 8 | u |+...

2020-02-05 17:39:40 2846

原创 hive操作时，order by和sort by的区别

sort by 负责分桶之后每隔分桶之内的排序order by负责的是全局排序不会进行分桶操作全局输出一个结果文件中。

2020-02-05 17:28:43 456

原创 hive操作时，如果想根据一个字段分桶，再想根据另外一个字段进行排序怎么做？

错误语句：select * from student_local cluster by sno sort by sage;Error: Error while compiling statement: FAILED: SemanticException 1:51 Cannot have both CLUSTER BY and SORT BY clauses. Error encountered...

2020-02-05 17:28:11 732

原创 hive减少扫描全表的操作思路是什么？

思路：一次扫描多次插入简称：多重插入普通插入：insert into table test_insert1 select id from source_table;insert into table test_insert2 select name from source_table;多重插入：from source_table ins...

2020-02-05 17:23:30 1550

原创 hive参数的三种配置方式

#方式1：conf/hive-site.xml#方式2：在启动服务的时候 bin/hive --service xx --hiveconf 参数#方式3；在会话中使用set 命令进行设置 set hive.exec.dynamic.partition=true;范围来看：xml影响最广。优先级来看：set命令优先级最高覆盖之前的配置。尽量使用set命令来设置，对其他用户没...

2020-02-05 17:17:44 395

原创 hive为什么不用mysql而用load

hive操作时，如果使用insert+values进行数据插入，会非常慢可以插入数据但是效率不高。原因：底层hive会把插入语句编译成MapReduce程序来执行！为什么用load？含义：加载装载数据也是hive推荐的插入表数据的方式。本质：加载操作是将结构化的数据文件移动到与 Hive表对应的位置（位于hdfs上）的纯复制/移动操作。注意：在加载...

2020-02-05 17:16:11 690

原创 hive启动日志命令

hive启动日志命令bin/hive --service metstore --hiveconf hive.root.logger=DEBUG,console

2020-02-05 15:23:19 1230

原创 hadoop大数据之hive架构简单理解

2020-02-03 17:21:25 218

原创数据仓库的简陋模型理解图

数据仓库:Data Warehouse数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。数据仓库的主要特征：面向主题的（Subject-Oriented ）集成的（Integrate...

2020-02-03 16:39:19 453

原创为什么MapReduce被有些人说垃圾？

MapReduce中的shuffle是mr程序执行的核心shuffle机制不断进行内存与磁盘的交互操作也是mr程序执行慢被诟病的地方。spark（内存迭代计算），解决了mr执行慢的问题。...

2020-02-03 15:43:23 380

原创 HDFS动态扩容的数据问题

问题描述：node04从node01上复制，hadoop也复制过来，/export/data元数据和块数据是一块复制过来的，datanode（node01），一定要将node04上的数据清空掉！步骤如下：...

2020-02-02 16:35:17 241

原创 MapReduce的输入输出和处理流程

MapReduce的输入和输出MapReduce框架运转在<key,value>键值对上，也就是说，框架把作业的输入看成是一组<key,value>键值对，同样也产生一组<key,value>键值对作为作业的输出，这两组键值对可能是不同的。一个MapReduce作业的输入和输出类型如下图所示：可以看出在整个标准的流程中，会有三组<key,value...

2020-02-02 16:08:11 5930

原创 MapReduce的框架结构

一个完整的MapReduce程序在分布式运行时有三类实例进程： MRAppMaster：负责整个程序的过程调度及状态协调 MapTask：负责map阶段的整个数据处理流程 ReduceTask：负责reduce阶段的整个数据处理流程 ...

2020-02-02 16:04:37 343

原创 MapReduce的分而治之，你真的懂吗？

分：Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。合： Reduce负责“合”，即对map阶段的结果进行全局汇总。MapReduce借鉴了函数式语言中的思想，用Map和Reduce两个函数提供了高层的并行编程抽象模型。 Map: 对一组数据元素进行某种重复式的处理； Red...

2020-02-02 15:58:51 2136 1

原创关于MapReduce的三大阶段、八大步骤

mapreduce的三大阶段：map阶段：并行处理的阶段 shuffle阶段：从离开Mapper开启到进入Reduce之前的阶段 reduce阶段：汇总整理的阶段mapreduce的八大步骤设置MapReduce的输入InputFormat类型，默认为TextInputFormat 自定义map函数，得到TextInputFormat的k1，v1；经过处理后传出k2，v2 分区-...

2020-02-02 15:52:32 6651

原创 hadoop hdfs常用命令

查看文件hadoop fs -ls file:///root/hadoop fs -ls /user/hadoop/file1创建目录hadoop fs -mkdir –p /user/hadoop/dir1将单个src或多个srcs从本地文件系统复制到目标文件系统。-p：保留访问和修改时间，所有权和权限。-f：覆盖目的地（如果已经存在）hadoop fs -put -f l...

2020-02-02 15:25:17 454

40 个 SpringBoot 常用注解：让生产力爆表！

apache jmeter连接clickhouse所需jar包.zip

jdbc_clickhouse.zip

三节点搭建clickhouse集群（含网络规划和软件版本信息）.docx

批量生成有序数据程序java版本

android实例（自己开发）

空空如也