![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 64
叁木-Neil
这个作者很懒,什么都没留下…
展开
-
spark小文件处理
某个需求流程处理在上传s3阶段会使用spark 计算写入的数据,但是由于spark写入时是使用的默认分区200,虽然部分数据进行了分区数的处理,但是分区数效果不好。还是会存在几G或者更小十几M每个文件的情况,希望的是有一个通用的处理方式。使用spark 数据缓存,再通过去拿执行计划的缓存大小计算spark写入时所需的分区数!由于希望有一个通用的处理方式,所以直接采用侵入spark 代码的方式进行处理大致执行逻辑:2.3 性能影响评估选了一些数据,进行spark执行性能评估,执行逻辑忽略了,直接上结果。原创 2022-06-08 23:45:04 · 1059 阅读 · 1 评论 -
impala&hive自定义UDF解析json中文key
一、前述由于hive的get_json_object 无法解析json中的中文key,于是重写了一个hive udf去对含有中文key的json进行解析。1)参考https://cwiki.apache.org/confluence/display/Hive/HivePluginshttps://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDFhttps://dzone.com/articles/writing-custom-h原创 2021-09-01 21:24:20 · 854 阅读 · 0 评论 -
大数据项目实战之阿里云服务器
阿里云服务器购买全流程最近想把之前的数仓项目从0-1走一遍,思考了一番后准备买三台阿里云的服务器去实现下对应的流程。具体落地流程如下!一、注册阿里云账号阿里云网址为:https://cn.aliyun.com/,注册账号并登录。二、购买ECS云服务器1) 进入控制台2)打开侧边栏,点击云服务器ECS3)侧边栏点击实例,然后点击创建实例4)选择计费方式=》穷人模式按量付费、服务器区域5)选定服务器配置6)选定服务器系统7)选定磁盘类型及大小,基本这一步就完成了然后点击"下一原创 2020-12-08 23:56:32 · 1076 阅读 · 0 评论 -
hue上workflow之shell-sqoop脚本配置实录
workflow之shell-sqoop脚本实录前面讲解了sqoop的密码明文问题解决与sqoop导入分库分表mysql数据问题解决,那么这里就详细介绍下在hue上配置shell-sqoop脚本时所遇到的问题!这里的shell脚本会以上篇的脚本为例!一、配置hue的workflow二、所遇问题2.1 不能加载mysql驱动报错如下:ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could原创 2020-05-31 14:42:21 · 1002 阅读 · 0 评论 -
mysql分库分表数据导入hive之sqoop-shell脚本
sqoop分库分表shell导入脚本之前的生产集群使用到了mysql的分库分表,所以抽取同一张表的数据就需要从不同的库与表中进行抽取了!话不多说线上图分库:分表:一、sqoop导入脚本#!/bin/bash#coding=UTF-8sqoop=/data/cloudera/parcels/CDH-5.14.4-1.cdh5.14.4.p0.3/bin/sqoop$sqoop import \-Dhadoop.security.credential.provider.path=jce原创 2020-05-31 14:37:32 · 2426 阅读 · 6 评论 -
sqoop密码明文问题解决
sqoop密码明文问题解决今天优化数仓sqoop导入导出时的密码明文问题!参考博客:https://blog.csdn.net/u011489205/article/details/78966716这里会详细跟大家图文介绍第四种 --password-alias的方式,话不多说开gao!!!一、简介Hadoop2.6.0 之后的版本提供了一个API用于将密码存储和应用程序分离。这个API被称为凭证提供的API,并提供了一个新的命令行工具来管理密码及其别名。密码及其别名一起被存储在密码保护的密钥库中。原创 2020-05-26 21:39:08 · 1059 阅读 · 1 评论 -
kafka启动异常
kafka启动异常一、描述由于在安装时有重装过,启动kafka时报broker的id对不上。二、图解三、问题解决思路由于当时只是报了启动失败。。。。1.查看启动日志,发现日志中报了一个broker的id对不上错误四、实际解决删除了/var/local/kafka/data目录中的所有文件版权声明:本博客为记录本人自学感悟,转载需注明出处!https://me.csdn.net...原创 2019-07-26 22:32:31 · 1919 阅读 · 0 评论 -
HBase Thrift Server无法启动
HBase Thrift Server无法启动一、描述安装Thrift Server服务启动时无法启动二、图解三、问题确定查看Thrift Server组件日志,发现错误为Thrift Server已存在(端口被占用)四、解决修改Thrift Server端口号,然后重启hbase.regionserver.thrift.port:19095版权声明:本博客为记录本人自学感悟...原创 2019-07-26 22:32:48 · 1781 阅读 · 2 评论 -
Kudu教程
一、Kudu概述1.1 定义Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器。1.2 基础架构Kudu也采用了Master-Slave形式的中心节点架构,管理节点被称作Kudu Master,数据节点被称作Tablet Server(可对比理解HBase中的RegionServer角色)。一个表的数据,被分割成1个或多个Tablet,Tablet被部署在Tabl...原创 2019-12-31 16:50:04 · 3242 阅读 · 1 评论 -
sqoop导入postgresql中的数据到hdfs上
一、 踩坑1.1 shell执行采坑一:报错缺少驱动包解决:把这个配置到环境变量中,并分发配置至集群中的每台机器1.2 workflow问题:缺少包解决:上传对应包到hdfs的oozie目录中二、导入语句与导入mysql基本类似举例:sqoop import --connect jdbc:postgresql://pgm-bp189osqbs69n2c1602...原创 2019-11-06 17:50:49 · 1073 阅读 · 0 评论 -
hive表锁定问题(Locks on the underlying objects cannot be acquired)
hive表锁定问题一、删除表失败1.1 描述?1.2 为什么会产生?1.3 如何解决?1.4 排查过程1.4.1.查看表是否被锁定1.4.2.解决表被锁死问题1.5 详解原理一、删除表失败1.1 描述?创建了一张临时表但是在插入数据后删除表时报错1.2 为什么会产生?因为在hive0.7版本之后开始支持并发,线上环境默认是用zookeeper做hive的锁管理,Hive开启并发功能的时...原创 2019-10-05 16:28:56 · 3355 阅读 · 2 评论 -
大数据端口总结
常见端口汇总:Hadoop: 50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口8019 : ZKFC端口Zookeeper:2181 : 客户端连接z...转载 2019-07-03 11:56:13 · 347 阅读 · 0 评论 -
Kafka数据到Hdfs
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下1> Kafka -> Flume –> Hadoop Hdfs常用方案,基于配置,需要注意hdfs小文件性能等问题.GitHub地址:https://github.com/apache/...转载 2019-07-02 09:53:35 · 9691 阅读 · 0 评论 -
大数据权限管理sentry与Kerberos概述
大数据权限管理sentry与Kerberos概述常见的解决方案分为两部分1. 管理用户身份*即用户身份认证2. 用户身份和权限的映射关系管理 即授权而Hadoop中常见的开源解决方案是Kerberos(认证)+LDAP(授权),LDAP则是授权的环节,常见的解决方案有Ranger,Sentry等,Ranger与Sentry是不同的厂商开发出的所以在不同的平台需要用不同的框架,去进行授权的...原创 2019-05-24 17:29:25 · 3641 阅读 · 0 评论 -
spark submit参数介绍
你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf ...转载 2019-03-28 00:00:33 · 1897 阅读 · 0 评论 -
Spark Streaming实现offset在Zookeeper的读取
Spark Streaming实现offset在Zookeeper的读取1. KafkaCluster的创建2. 从Zookeeper读取offset3.Offset写入Zookeeper1. KafkaCluster的创建public static KafkaCluster getKafkaCluster(Map<String, String> kafkaParams) { /...原创 2019-03-31 12:25:09 · 624 阅读 · 0 评论 -
Hive常用参数
Hive常用参数(常用的一些可设置参数,具体数值按照需要进行调整!)SET hive.optimize.skewjoin = true;SET hive.skewjoin.key = 100000;SET hive.exec.dynamic.partition.mode = nonstrict;SET mapred.reducer.tasks = 50;1.Hive中间结果压缩和压缩输...原创 2019-03-12 19:30:13 · 1578 阅读 · 0 评论 -
Flume 监控kafka主题写HDFS小结
Flume 监控kafka主题写HDFS小结需求采集Flume采集kafka主题内容,往Hadoop集群上写HDFS,该机器没有安装Hadoop这里的Flume版本是1.7.0,Hadoop版本是2.7.2,kafka版本是0.11.0.2把Hadoop集群的hdfs-site.xml、core-site.xml两个配置文件复制到 flume安装目录的conf目录去,把hadoop-hdfs...原创 2019-03-03 21:48:09 · 1937 阅读 · 0 评论 -
hive学习总结
hive 学习思路1.组成2.运行流程3.hive 操作数据3.1 DML 数据操作3.1.1 数据导入表3.1.2 数据导出表3.2 DDL数据操作3.2.1 数据库操作3.2.2 表的操作3.2.3 列的操作3.2.4 详解创建表1 EXTERNAL(内部表与外部表)2.PARTITIONED BY(分区表)3.CLUSTERED BY(分桶表)4.ROW FORMAT(行切割符)3.2.5 ...原创 2019-02-28 19:36:06 · 2310 阅读 · 0 评论