自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

没有合适的昵称

求知若饥,虚心若愚

  • 博客(123)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 数仓即席查询--Druid

Druid简介Druid是一个快速的列式分布式的支持实时分析的数据存储系统;它在处理PB级数据,毫秒级查询,数据实时处理方面,比传统的OLAP系统有了显著的性能改进官网:http://druid.io/ps:阿里巴巴也有一个项目叫Druid,但是它是一个数据库连接池项目Druid特点1.列式存储格式Druid使用面向列的存储,它只需要加载特定查询所需的列,查询速度快2.可扩展的分布式...

2020-02-14 18:39:20 2031

原创 数仓即席查询---Presto

Presto简介presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB级,主要用来处理秒级查询场景ps:虽然presto可以解析SQL,但它不是一个标准的数据库,不是MySQL,oracle的代替品,也不能用来处理在线事务(OLTP);官网:https://prestodb.io/Presto架构Presto由一个coordinator和多个worker组成Presto优缺...

2020-02-14 11:01:46 2463 6

原创 Mysql+Keepalived实现HA---备份元数据

前言CDH集群的一些组件的元数据信息都是放在了MySQL中,如果MySQL挂掉,那么整个集群都将无法运行,因此,MySQL的元数据备份还是很重要的环境说明1、系统版本:Centos7.02、mysql版本:5.6.353、安装用户:master(需配置无密码的sudo权限)4、mysql master:192.168.240.167 mysql slave:192.168.240.1...

2020-02-12 10:21:45 1523

原创 Kafka压力测试

Kafka压测用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.shKafka Producer压力测试1.在kafka的bin目录下面有这两个文件bin/kafka-producer...

2020-02-11 10:21:55 1405

原创 hadoop--基压测试

在安装完集群后,我们都需要先对集群做一些测试,下面讲解测试读写的性能写性能包名:Apache:hadoop-mapreduce-client-jobclient-2.7.5-tests.jarCDH:hadoop-mapreduce-client-jobclient-3.0.0-cdh6.2.0-tests.jar包路径:/home/hadoop-jrq/bigdata/hadoo...

2020-02-09 14:42:47 1612

原创 hadoop---LZO压缩配置

下载https://github.com/twitter/hadoop-lzo/archive/master.zip编译下载后的文件名是hadoop-lzo-master,它是一个zip格式的压缩包,先进行解压,然后用maven编译。生成hadoop-lzo-0.4.20.jar上传HAOOP_HOME/share/hadoop/common/如果是CDH那么上传到:/opt/clou...

2020-02-08 20:37:50 1396 1

原创 CDH集群日志数据清理--val/lib

rm /var/lib/cloudera-host-monitor/ts/*/partition*/* -rfrm /var/lib/cloudera-service-monitor/ts/*/partition*/* -rf参考:https://www.cnblogs.com/qinglanmei/p/11455010.html我主要清理cloudera-host-monitor和clo...

2020-02-03 12:41:39 1950 2

原创 Sqoop数据导出一致性问题

场景如Sqoop在导出到Mysql时,使用4个Map任务,过程中有2个任务失败,那此时MySQL中存储了另外两个Map任务导入的数据,此时老板正好看到了这个报表数据。而开发工程师发现任务失败后,会调试问题并最终将全部数据正确的导入MySQL,那后面老板再次看报表数据,发现本次看到的数据与之前的不一致,这在生产环境是不允许的。解决官网描述及参数介绍:Since Sqoop breaks do...

2020-02-02 19:35:01 2441

原创 Cannot overwrite table portrayal.FrequentlyStopAddr that is also being read from;

背景原因:spark SQL select 一个表,然后在overwrite 一个表解决://将结果保存在临时表中 spark.sql("select * from result_tab").write.mode(SaveMode.Overwrite).saveAsTable("tmp_tab")// 计算逻辑........//将临时表覆盖结果表spark.sql("s...

2020-01-09 16:53:24 2448 1

原创 scala 隐式转换 --- 为字符串类扩展方法

先看一个简单的例子:implicit def double2Int(d: Double) = d.toIntval num: Int = 3.5println(num) // 3上面的方法,会自动找到double2Int这个函数,然后Double转成Int类型隐式转换和类型系统是scala的强大之处,从上可以看出,在某些时候,我们可以直接的写这么一个方法,在需要的地方导入,代码会很简洁...

2020-01-01 10:33:08 1555

原创 FAILED: SemanticException [Error 10025]: Expression not in GROUP BY key ....

背景:查出最后一次车辆停车的位置坐标思路:对结束时间排序,然后GROUP BY,再取出组内的第一条数据报错信息如标题解决:SELECT VEHICLEID,collect_set(LNG)[0] FROM (select * from gis_cal_dailystop_freq order by endtime DESC) bGROUP BY b.VEHICLEID;参考:ht...

2019-12-31 14:53:48 3865

原创 sqoop导Oracle数据在hive中显示null

如图解决:--null-string '\\N' \--null-non-string '\\N' \原因:在hive里面,NULL是用\N来表示的,null就是一个字符串

2019-12-30 19:26:59 1874

原创 shell往hive SQL文件中传递参数

传递一个值:-hiveconf dataPath=${变量值}当然也可以:-hivevar多个值:-hiveconf dataPath=${变量值} -hiveconf dataPath1=${变量值}

2019-12-30 19:26:35 2924

原创 hive自定义UDF函数

说明:有时候,hive的自定义函数,以及满足不了我们的需求了,那么这时候我们就需要自己写一些函数,来满足我们的业务需求,下面记录一次自定义函数的实现方法一:import org.apache.hadoop.hive.ql.exec.UDF;/** * 自定义的hiveUDF函数,用于计算两点(经纬度)之间的距离是否超过1KM */public class DistanceCalcul...

2019-12-25 20:07:50 2462

原创 spark RDD汇总(一)

collect val listRDD = sc.parallelize[Int](Seq(1, 2, 4, 3, 3, 6), 2) listRDD.collect() // 收集rdd的所有数据take listRDD.take(2) // 取前两toplistRDD.top(2) // 取最大的两个firstlistRDD.first() // 取第一个...

2019-12-21 15:22:55 2438

原创 Cannot accept sharding commands if not started with --shardsvr

–shardsvr启动时加上这个参数就可以了

2019-12-11 15:22:44 3434

原创 yarn base64中毒处理过程

问题描述:早上上班突然看到服务器资源被占满,查找原因发现全部是yarn的资源占用,于是去找相关的进程,杀死进程,但是依旧没用,在不影响生产的前提下,将中毒的机器重启后,依旧存在一个进程占用太多的内存及CPU资源,参考https://blog.51cto.com/hashlinux/2296233,做了之后还是存在,其文件会自动的生成,怎么都删不掉,最后的处理办法:将文件的权限改为000后,杀死进程...

2019-12-02 09:54:35 1996

转载 转 Hive/Impala--HAProxy实现Impala/HiveServer2负载均衡

https://www.jianshu.com/p/b9840bea1ba8

2019-11-29 11:03:05 1708

原创 Canary 测试建立与 ZooKeeper 服务的连接或者客户端会话失败。

这是 ZooKeeper 服务级运行状况测试,用于检查基本客户端操作是否正常以及是否在合理时间内完成。该测试将对定期执行以下操作序列的“Canary”测试的结果进行报告。 首先,与 ZooKeeper 服务连接并建立会话(根会话),并创建一个永久 znode 作为所有 Canary 操作的根。然后,Canary 测试将与该服务的每个 ZooKeeper Server 进行连接并建立会话(子会话...

2019-11-29 10:59:51 4686

原创 CDH调优 -- hive部分(调优部分将持续更新)

hive的默认配置:hive.fetch.task.conversion为minimal,在hue中执行一个简单的查询语句:select * from where id =898(数据量50W,字段15,数据文件大小:100M+),执行时间:12S+在修改为more配置后,如上图,hue执行的结果,只需要2S+,性能提升了6倍,第二次执行,查询的结果时间0.5S,并且修改ID,查询依旧保持在0...

2019-11-26 14:15:53 3962

原创 yarn报错集

Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. File does not exist: hdfs://master:8020/user/yarn/mapreduce/mr-framework/3.0...

2019-11-26 14:15:31 2325

转载 转 HDFS数据不均衡解决方案:基于剩余空间大小的均衡策略

https://blog.csdn.net/Androidlushangderen/article/details/78308893

2019-11-26 13:47:36 1964

原创 未在 hue.ini 中配置代码段类型 hive

背景:我的是CDH6.2集群,安装成功时,都可以找到hive,直接查询,后面重启一次后,查询不到hive解决:cd /etc/hue/confvi hue.ini找到beeswax标签打开配置:##hive_server_host=localhost##hive_server_port=10000##hive_conf_dir=/etc/hive/conf请根据个人的情况来设置...

2019-11-25 19:08:47 706

原创 running beyond virtual memory limits. Current usage: 313.6 MB of 512 MB physical memory used; 2.3 GB

sqoop import -D mapreduce.map.memory.mb=3000 -D mapreduce.map.java.opts=-Xmx1024m调节上面两个参数

2019-11-21 09:01:44 558

原创 CDH集群HDFS磁盘扩容及去除磁盘的问题

将磁盘挂载到指定的目录下1.为新磁盘创建分区fdisk -l2. 指定磁盘创建分区fdisk /dev/vdbCommand (m for help): n(n表示创建分区)Partition type:(表示磁盘有两种分区类型:“p”表示主分区。“e”表示扩展分区。)(磁盘使用MBR分区形式,最多可以创建4个主分区,或者3个主分区加1个扩展分区,扩展分区不可以直接使用,需要...

2019-11-21 09:01:15 3505

原创 记录一次华为云主机安装CDH6的坑

1.使用华为云的鲲鹏服务器,因为是ARM架构,导致安装不上CDH,源码编译HDP也老是报错,可能原因是:底层系统架构的改变,以及鲲鹏服务器现阶段还不够成熟,搞了博主三天,没有解决问题,只好换个服务器2.华为云的服务器,其hosts文件如下:::1 localhost localhost.localdomain localhost6 localhost6.loca...

2019-11-20 10:38:45 2361 4

原创 初识flink

单机安装前提:jdk1.8下载:https://flink.apache.org/downloads.html目前的最新版本1.9.1,注意选择你的scala版本下载以后上传到虚拟机中,解压:tar -zxvf flink-1.9.1-bin-scala_2.11.tgzcd flink-1.9.1bin/start-cluster.sh有上面两个进程,说明已经安装成功http...

2019-11-17 17:42:47 590

原创 关于spark SQL读取传统数据库的效率问题

配置的方式: val readOpts = Map[String, String]("numPartitions" -> "3", "partitionColumn" -> "id", "lowerBound" -> "3", "upperBound" -> "8", "fetchsize" -> "100") val jdbcDF = s...

2019-10-29 22:11:12 1440

原创 hive 如何在配置中设置分区的非严格模式

hive配置中对hive.exec.dynamic.partition.mode的说法如下:在严格模式下,用户必须指定至少一个静态分区以防用户意外覆盖所有分区。在非严格模式下,所有分区都允许是动态的。事实上,我们很多时候都需要设置为非严格模式设置成非严格模式的两种方式:1.每次hive会话的时候加上如下配置设置:set hive.exec.dynamic.partition.mode...

2019-10-23 08:42:59 6737 2

原创 hive中的坑(持续更新中)

Error: org.apache.spark.sql.AnalysisException: java.lang.IllegalArgumentExceptio ...

2019-10-21 21:11:23 1129

原创 sqoop采坑

19/10/16 14:19:04 INFO sqoop.Sqoop: Running Sqoop version: 1.4.719/10/16 14:19:04 ERROR tool.BaseSqoopTool: Error parsing arguments for job:19/10/16 14:19:04 ERROR tool.BaseSqoopTool: Unrecognized a...

2019-10-16 19:18:19 1446 4

原创 storm安装

1、启动zk集群2、每台机器要求java 7+ 以及 python 2.6.6+3、下载storm : http://storm.apache.org/downloads.html, 我们使用1.2.2版本apache-storm-1.2.2.tar.gz4、将storm-1.2.2.tar.gz上传到master上hadoop-jrq用户下的bigdata目录下,用下面的命令解压:ta...

2019-10-13 16:15:18 743

原创 CDH6.2.0安装

写文档很累了,就不粘贴复制了,需要的到下方链接下载,没有C币的请留下联系方式,我私发你

2019-10-07 21:10:07 796

原创 记录一次azkaban的安装

本人因不喜欢oozie,因此在cdh安装完成后,不适用oozie,安装azkaban,轻巧,使用方便,在界面也可以看到各个任务的执行情况等下面记录一次实际的安装过程:MySQL配置:本处并未创建azkaban账号,有需要可以创建将azkaban-sql-script-2.5.0.tar.gz上传到cdh-cm服务器上tar -zxvf azkaban-sql-script-2.5.0.t...

2019-09-26 20:00:46 1551

原创 如何数据重跑

离线任务,数据重跑是很正常的事情,比如程序跑着跑着就挂掉了,比如跑出来的数据不正确,需要检查后重跑但是重跑的时候,需要注意的地方是,会不会有数据已经写入hbase了,或者hive的当天分区是否已经存在数据了hive有数据的话,这点倒不用太在意,因为在导数据之前,我们通常会先删除当天的文件数据(不删会报错):hadoop fs -rm -r /user/hive/warehouse/web.d...

2019-09-15 11:28:06 3345

原创 如何优雅的停止sparkstreaming程序

直接kill -9?不好吧,万一我这个程序还在处理数据呢?还没处理完呢?在处理的数据丢失了呢?但是我又想让它先停一下呢?好了,直接上代码吧(语言组织不好)~import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.{FileSystem, Path}import org.apache.spark.strea...

2019-09-15 11:09:51 1610

原创 使用Spark SQL合并小文件的一个例子

小文件的危害完我就不在多说,请见:https://blog.csdn.net/qq_34341930/article/details/89031661import org.apache.spark.sql.{SaveMode, SparkSession}/** * 使用Spark SQL合并小文件 */object SmallFileMerger { def main(args...

2019-09-15 11:02:17 2975 1

原创 Spark Streaming程序怎么才能做到不丢数据

Spark Streaming在接收数据的时候有两种模式,第一种是基于Receiver模式,第二种是Kafka Direct模式,两者不丢数据的处理方式不一样,下面我们就来聊聊这两种模式不丢数据的处理策略基于Receiver模式在这种模式下,我们可以使用checkpoint + WAL + ReliableReceiver的方式保证不丢失数据,就是说在driver端打开chechpoint,用...

2019-09-15 10:50:42 2935

原创 canal同步MySQL的数据

canal是什么?canal是阿里巴巴的一个开源项目,其作用就是:模拟MySQL的从节点,从而达到数据的同步作用原理图如下:这种方式对比flume和sqoop的优点是:不影响源数据库可以识别新增数据,也可以检测到删除或者更新的数据不要求源数据库必须有用于表示增量的字段...

2019-09-08 09:22:53 1771

原创 传统数据库的数据怎么实时导入到HDFS中

注意:这里的传统数据库一般是指传统的关系型数据库,比如Oracle、MySQL、SQL Server、DB2等将传统数据库实时导入到HDFS的方法一般是两种:1.准实时的发起增量SQL查询,然后将查询到的增量数据导入到HDFS中2.实时的监控数据库的增量的日志数据,然后将增量的日志数据实时导入到HDFS中以下分别看下上面两种方式的流程以及优缺点准实时的发起增量SQL查询的方式要从传统数...

2019-09-08 09:22:41 3871

CDH5.14安装文档(包含spark2和kafka的安装)

CDH5.14安装文档(包含spark2和kafka的安装)

2021-03-30

CDH6.2安装文档.doc

CDH6.2.0安装详细文档,博主一步步实验过的,不足之处还望各位前辈同行指正,谢谢

2019-10-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除