大数据动物园
文章平均质量分 55
不定期分享大数据动物园的动物。说人话就是不定期分享大数据生态圈的组件,可能是新出的,也可能是我新用的,让您紧跟行业新动态~
光于前裕于后
本人有多年大数据与机器学习开发经验,并乐于总结与分享,如有侵权或写的不对的地方可以私信我,有问题也可以问我哟,free~
展开
-
HDFS小文件过多的危害和解决方案
小文件过多的危害你知道吗~原创 2024-06-14 09:31:24 · 831 阅读 · 0 评论 -
在Hive中使用Python编写的UDF函数
在Hive中使用Python编写的UDF函数,需要通过Hive的brickhouse库来实现。brickhouse库提供了一种将Python UDF函数与Hive集成的方法。原创 2024-03-18 14:14:07 · 951 阅读 · 0 评论 -
记一次低级且重大的Presto运维事故
本文纯属虚构,旨在提醒各位别犯类似低级错误。如有雷同,说的就是你!原创 2024-01-22 17:40:03 · 1276 阅读 · 0 评论 -
使用Sqoop将Hive数据导出到TiDB
关系型数据库与大数据平台之间的数据传输之前写过一些。我发现一些大家可能会忽略但很重要的地方!所以,请继续看下去,你肯定会有收获的!!!原创 2024-01-11 16:29:51 · 1419 阅读 · 0 评论 -
Presto SQL 常见报错汇总
Presto SQL 常见问题汇总,持续更新中...原创 2023-03-02 13:43:50 · 2846 阅读 · 4 评论 -
明明有权限却报HiveAccessControlException
最近遇到一个奇怪的问题,之前正常跑的任务,最近却总是报没有权限,而且重跑就好了原创 2022-07-13 11:17:09 · 1547 阅读 · 0 评论 -
Hive指定位置增加字段及解决columns have types incompatible with the existing columns in their respective positio
Hive指定位置增加字段及解决FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Unable to alter table. The following columns have types incompatible with the existing columns in their respective positions原创 2022-06-28 14:46:04 · 2101 阅读 · 0 评论 -
记一次重大的生产事故
高高兴兴上班来,突闻任务大面积报错,经过一番排查,服务器上某个用户不见了。原创 2022-04-21 14:31:54 · 3439 阅读 · 10 评论 -
Presto与Hive SQL对比
近期工作涉及到数据治理,对一些老慢任务优化改造,主要是Hive转Presto,Hive实在是太慢了~本篇记录Hive转Presto遇到的问题,希望对你们有所帮助😘长期更新,记得收藏Presto不支持字段类型自动转换(插入和比对)非string类型字段,hive传入’'空字符串可自动转,presto需传入nullHive 自动转换,Presto try_cast(value AS type)Presto不支持字段值不符合定义的字段类型时自动置空如:字段类型为decimal(10,2),h原创 2022-04-19 11:18:27 · 3572 阅读 · 4 评论 -
我可爱的卧龙凤雏同事又双叒叕搞了个BUG
亲爱的朋友们,我可爱的卧龙凤雏同事又双叒叕搞了个BUGDolphinScheduler大家应该都用过,中国人开源的一个调度工具,类似Azkaban,本次的事情还是在DolphinScheduler上发生的。背景上一篇也提到过,某业务数仓要上云,把本地正常运行的任务弄到云上,DolphinScheduler相关的工作很简单,导出工作流再导入就可以了。卧龙的操作同事卧龙将工作流导入云上DolphinScheduler之后,执行工作流,发现没有生成任务实例,查看工作流实例,任务上的标志是暗的查看日原创 2022-03-02 16:15:08 · 813 阅读 · 0 评论 -
DolphinScheduler无故删除HDFS上的Hive库表目录
亲爱的朋友们,我可爱的同事又搞了个大BUG待我慢慢道来…DolphinScheduler大家应该都用过,中国人开源的一个调度工具,类似Azkaban,本次的事情就是在DolphinScheduler上发生的。据领导描述,某团队负责的某业务数仓上云后,HDFS上的Hive库表目录总是无故被删,他们找不到原因,让我协助处理一下。本来某业务数仓上云是一个很简单的工作,对于DolphinScheduler上的任务而言,只需要把工作流导出,然后导入到云上的DolphinScheduler,不幸的是XX云上的S原创 2022-03-02 11:53:06 · 3620 阅读 · 0 评论 -
Crontab 所有计划任务被清空
先简单描述一下事情经过,有业务部门反映今日数据没有更新,查看日志发现使用crontab调度的每小时执行任务最后执行时间是昨天12点,查看crontab -l发现所有任务都没了。排查过程:1.通过此任务日志可以定位到清空操作在12点到13点之间。2.通过history发现11点有个异常命令crontab - l(正常是crontab -l),我试了一下卡住了什么都不显示,也没有清空任务。3.通过搜索引擎得知,使用远程连接工具使用crontab时,如果遇到网络波动等情况意外中止,就会清空所有任务。4.原创 2022-02-23 11:24:44 · 2696 阅读 · 6 评论 -
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. Could not find status of job:job_1637104181115_796482:28:27’终端报错日志见上,信息较少,需要在yarn上查看更多日志信息INFO [Thread-68] org.apache.hadoop.service.AbstractService: Service JobHis原创 2022-02-22 20:31:33 · 5707 阅读 · 0 评论 -
Hive On Spark报错:Remote Spark Driver - HiveServer2 connection has been closed
执行报错日志为:Failed to monitor Job[-1] with exception ‘java.lang.IllegalStateException(Connection to remote Spark driver was lost)’ Last known state = SENTFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Unable to se原创 2022-01-26 16:21:24 · 4288 阅读 · 0 评论 -
常用HDFS及SHELL命令
1.查看目录所占空间hdfs dfs -du -s -h /user/hive/warehouse/xx1.7 G /user/hive/warehouse/xx2.查看存储使用情况hdfs dfsadmin -reportConfigured Capacity: 0(0 PB)Present Capacity: 0(0 PB)DFS Remaining: 0(0 TB)DFS Used: 0(0 PB)DFS Used%: 0%Under replicated blocks: 0原创 2022-01-25 16:40:43 · 1309 阅读 · 0 评论 -
使用Presto实现Hive动态分区
Presto和Impala、Spark SQL都是SQL查询引擎,也都是基于内存运算。但是Presto支持多种数据源,比如Hive、TiDB、Redis、Kafka、ES、Oracle等等,可以跨数据源连表查,既快又方便。不过多介绍了,下面进入正题。Hive 动态分区使用方法见下:set hive.exec.dynamic.partition=true; #开启动态分区,默认是falseset hive.exec.dynamic.partition.mode=nonstrict; #开启允许所有原创 2021-09-01 14:37:17 · 1535 阅读 · 5 评论 -
使用Presto重写Hive分区表数据
Presto和Impala、Spark SQL都是SQL查询引擎,也都是基于内存运算。但是Presto支持多种数据源,比如Hive、TiDB、Redis、Kafka、ES、Oracle等等,可以跨数据源连表查,既快又方便。不过多介绍了,下面进入正题。Hive向分区表重写数据是这样的:insert overwrite tablename partition (year='2021')select a, b from tab;但是Presto不支持这种写法,一是不支持overwrite,二是不支原创 2021-08-12 17:55:15 · 2620 阅读 · 5 评论 -
开启了Kerberos的Kafka客户端配置
如果不做任何配置将会报错:WARN [Producer clientId=console-producer] Bootstrap broker xx:9092 (id: -1 rack: null) disconnected (org.apache.kafka.clients.NetworkClient)添加两个文件:# client.propertiessecurity.protocol=SASL_PLAINTEXTsasl.kerberos.service.name=kafka# jaas原创 2021-05-25 16:31:20 · 1659 阅读 · 1 评论 -
Sentry安装使用
Sentry对于Hive表的权限管理粒度可以到列,见下:Sentry的安装使用网上有很多,但是我新建的用户和组在Hue配置权限并不起作用,经过一番探索,我终于发现了问题所在,详见下文。目录1 安装Sentry2 使用Sentry2.1 创建组2.2 创建用户2.3 赋予角色2.4 查看权限1 安装Sentry创建sentry数据库及用户,CM页面添加sentry若安装sentry提示没有mysql驱动,将mysql-connector-java.jar放到/usr/share/java下即可。原创 2021-05-21 11:10:56 · 720 阅读 · 3 评论 -
Kudu简单使用
环境版本:CDH 6.3.2 | Impala 3.2.0 | Hive 2.1.1 | Hue 4.2.0 | kudu 1.10.0# 创建kudu表,需指定主键、分区CREATE TABLE kudu_table( id BIGINT, name STRING, PRIMARY KEY(id))PARTITION BY HASH PARTITIONS 16STORED AS KUDU;# 创建impala外部表映射kudu表CREATE EXTERNAL TABL.原创 2021-05-20 18:15:48 · 516 阅读 · 2 评论 -
Kerberos常见问题汇总
问题汇总1.未生成票据2.主体密码错误3.KDC未启动4.票据缓存5.Peer indicated failure6.混合问题1.未生成票据报错内容:WARN ipc.Client: Exception encountered while connecting to the server : org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS]ls: Fa原创 2021-05-20 17:44:31 · 3330 阅读 · 2 评论 -
Hive实现删除部分数据 delete from where
insert overwrite table table_nameselect * from table_name where xx;重写符合条件的数据(与删除条件互斥)备注:hive删除表:drop table table_name;永久性删除,不能恢复:drop table table_name purge;hive删除表中数据:truncate table table_name;hive按分区删除数据:alter table table_name drop partitio原创 2021-05-06 17:54:39 · 8993 阅读 · 0 评论 -
在Windows下开发调试PySpark
Spark版本:2.4.0+cdh6.3.1Spark-Windows版本:spark-2.4.0-bin-hadoop2.7WinUtils版本:hadoop-2.7.1Python版本:3.7.2Java版本:1.8.0_121Scala版本:2.11.8 按需安装目录前言1 使用PyCharm开发PySpark直连Hive metastore1.1 下载相关包1.2 配置环境变量1.3 设置spark日志级别1.4 启动spark-sql1.5 创建测试表并插入数据1.6 安装相关包1.原创 2021-02-09 14:55:52 · 3611 阅读 · 1 评论 -
Error retrieving https://nvd.nist.gov/feeds/json/cve/1.0/nvdcve-1.0-modified.meta; received 404
开始我搜项目哪里写了nvdcve,但没找着。[root@sandbox eagle]# grep -rn "nvdcve" ./然后在StackOverflow上搜到这个,发现应该找dependency-check,找到后改成了最新的版本6.0.3。nist have renamed this file to 1.1 in their next update:check this changelogNew file's link is:https://nvd.nist.gov/feeds/js原创 2020-12-21 11:21:12 · 1230 阅读 · 1 评论 -
大数据平台作业智能诊断/管理组件之Apache Eagle
源码见:https://github.com/apache/eagle官方文档见:http://eagle.apache.org/docs/latest目录前言一、Apache Eagle 介绍二、Quick StartInstallationBuild EagleDeploy Eagle三、遇到的问题前言随着业务开展,公司在大数据集群上的作业越来越多,而程序员的水平参差不齐,有些程序跑起来没有任何问题,但占用了极大的资源。为了改善这种情况,我最近调研了两个开源的大数据平台作业智能诊断/管理组件,D原创 2020-11-23 14:59:19 · 790 阅读 · 2 评论 -
大数据平台作业智能诊断/管理组件之Dr.Elephant
源码及官方文档见:https://github.com/linkedin/dr-elephant目录前言一、Dr.Elephant 介绍二、Quick Setup Instructions三、遇到的问题前言随着业务开展,公司在大数据集群上的作业越来越多,而程序员的水平参差不齐,有些程序跑起来没有任何问题,但占用了极大的资源。为了改善这种情况,我最近调研了两个开源的大数据平台作业智能诊断/管理组件,本文先分享Dr.Elephant。一、Dr.Elephant 介绍Dr.Elephant被定位成一个对原创 2020-11-23 14:32:44 · 852 阅读 · 1 评论 -
Hive优化配置等汇总
1.大小表join(数据倾斜,包括笛卡尔积)优化,小表写在前面(小表大表谁在前区别不大),0.7版本前需要在sql中写/+mapjoin(small_tablename)/,之后版本 set hive.auto.convert.join=true; 即可自动转换,写不写/+mapjoin(small_tablename)/没有区别。脚本开头写:set hive.auto.convert.join=true;set hive.mapjoin.smalltable.filesize=25000000; –原创 2020-10-27 11:17:25 · 513 阅读 · 1 评论 -
基于Docker从零搭建Prometheus+Grafana
环境版本:Ubuntu Kylin 20.04目录1 安装docker2 拉取相关镜像3 node exporter3.1 start node exporter3.2 查看端口91003.3 访问url4 prometheus4.1 编辑prometheus.yml4.2 start prometheus4.2 查看端口90904.3 访问url5 grafana5.1 start grafana5.2 查看端口30005.3 访问url5.4 简单使用grafana备注:1 安装docker使用原创 2020-10-09 11:31:25 · 1806 阅读 · 6 评论 -
基于Spark MLlib和Spark Streaming实现准实时分类
环境版本: ·Spark 2.0 ·Scala 2.11.8 在网上搜索Spark MLlib和Spark Streaming结合的例子几乎没有,我很疑惑,难道实现准实时预测有别的更合理的方式?望大佬在评论区指出。本篇博客思路很简单,使用Spark MLlib训练并保存模型,然后编写Spark Streaming程序读取并使用模型。需注意的是,在使用Spark MLlib之前我使用了python查看分析数据、清洗数据、特征工程、构造数据集、训练模型等等,且在本篇中直接使用了python构造的数据集。原创 2020-05-21 10:55:27 · 906 阅读 · 0 评论 -
HBase 1.1.2 REST API 初体验
环境版本: ·HDP 2.5.3 ·HBase 1.1.2HBase提供了REST API,为开发者增加了更多选择。我们可以使用HBase REST API对表进行增删改查,但本篇博客主要使用查询功能。请注意HBase版本! 请注意HBase版本! 请注意HBase版本!1 启动HBase REST Server# 前台运行[root@hqc-test-hdp3 ~]# hbase rest start -p88882020-05-12 16:26:02,062 INFO [main] u原创 2020-05-13 11:28:36 · 1140 阅读 · 1 评论 -
删除MySQL历史数据并修改sqlsource.status lastindex脚本
每月1号 00:00:00定时执行保存最近一个月数据,如1月1日删除12月1日之前(11月)数据,12月31日时有最多的两个月数据(11与12月)[flume@hqc-test-hdp3 ~]$ crontab -eno crontab for flume - using an empty onecrontab: installing new crontab[flume@hqc-test...原创 2019-12-10 15:42:26 · 470 阅读 · 2 评论 -
Spark Streaming 2.0 读取Kafka 0.10 小例子
环境版本: Scala 2.11.8; Kafka 0.10.0.1; Spark 2.0.0如需Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1版本请看这篇:Flume+Kakfa+Spark Streaming整合import org.apache.kafka.common.serialization.StringDeserializerimpor...原创 2019-11-08 14:29:19 · 471 阅读 · 0 评论 -
基于HDP使用Flume实时采集MySQL中数据传到Kafka+HDFS或Hive
环境版本: HDP-2.5.3注意:HDP中Kafka broker的端口是6667,不是9092前言有两种方式可以将数据通过flume导入hive中,一是直接sink到hive中,二是sink到hdfs中,然后在hive中建个外部表。原创 2019-11-05 15:45:05 · 1654 阅读 · 0 评论 -
使用Sqoop将SQL Server视图中数据导入Hive
环境版本: ·HDP-2.5.3 ·Hive 1.2.1 ·Sqoop 1.4.6 ·SQL Server 2012文章目录1.下载sqljdbc4.jar放在$SQOOP_HOME/lib下2.测试sql server连接2.1 List available databases on a server2.2 List available tables in a database2.3 ...原创 2019-10-30 21:57:30 · 2029 阅读 · 2 评论 -
Hive、Beeline、Spark-SQL、Spark-Shell CLI使用
文章目录1 Hive2 Beeline3 Spark-SQL4 Spark-shell1 Hive[root@hqc-test-hdp1 ~]# su hdfs[hdfs@hqc-test-hdp1 root]$ cd# 准备数据[hdfs@hqc-test-hdp1 ~]$ vim phone.txt1 iphone5 2G 5999.02 oneplus 3G 2299.03 ...原创 2019-10-29 09:35:39 · 1311 阅读 · 0 评论 -
基于HDP使用Flume实时采集MySQL中数据传到Kafka
注意:HDP中Kafka broker的端口是6667,不是90921.将flume-ng-sql-source-1.5.2.jar,mysql-connector-java.jar放入Flume安装目录lib下原创 2019-10-21 17:22:02 · 768 阅读 · 0 评论 -
第三个MapReduce程序----倒排索引inverseindex
分为两步第一步代码实现package club.drguo.mapreduce.inverseindex;import java.io.IOException;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hado原创 2016-03-20 16:28:44 · 1298 阅读 · 0 评论 -
Flume常见错误整理(持续更新ing...)
进来看!原创 2016-08-12 17:46:10 · 24365 阅读 · 0 评论 -
Flume+Kakfa+Spark Streaming整合(运行WordCount小例子)
环境版本:Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0原创 2017-11-21 21:08:00 · 937 阅读 · 5 评论 -
SolrCloud Collection 创建
环境版本: CDH 5.12.0; Solr 4.10.3原创 2017-11-29 19:38:18 · 4012 阅读 · 8 评论