皮哥四月红
码龄6年
关注
提问 私信
  • 博客:387,553
    387,553
    总访问量
  • 133
    原创
  • 680,046
    排名
  • 110
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-09-18
博客简介:

weixin_43230682的博客

查看详细资料
个人成就
  • 获得471次点赞
  • 内容获得98次评论
  • 获得1,665次收藏
  • 代码片获得6,302次分享
创作历程
  • 4篇
    2021年
  • 130篇
    2020年
成就勋章
TA的专栏
  • Hadoop
    27篇
  • MySQL
    5篇
  • PostgreSQL
    1篇
  • Azkaban
    1篇
  • Phoenix
    2篇
  • Kudu
    1篇
  • Redis
    8篇
  • Impala
    1篇
  • Elasticsearch
    5篇
  • 数据治理
    2篇
  • Hive
    21篇
  • Spark
    10篇
  • Flink
  • Kafka
    8篇
  • HBase
    13篇
  • Zookeeper
    5篇
  • Flume
    10篇
  • Storm
  • Sqoop
    3篇
  • Java
    19篇
  • Python
  • Scala
    3篇
  • Linux
    8篇
  • 机器学习与数据挖掘
  • 杂七杂八
    5篇
  • 计算机网络
  • 操作系统
  • 数据结构与算法
  • 计算机组成原理
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Sqoop抽取Postgresql数据到HDFS和Hive时数据量增多

1、现象:postgresql源表数据量:抽取到HDFS上和Hive之后数据量:2、原因:使用sqoop从pg库导出数据至HDFS或Hive时,如果数据中包含Hive指定的列分隔符,如”\001”或”\t”,那么在Hive中就会导致数据错位;如果数据中包含换行符”
”,那么就会导致原先的一行数据,在Hive中变成了两行或多行数据,导致数据量增多。正常的:3、解决:在sqoop执行import导入命令时添加参数–hive-drop-import-delims,作用是在导入时从字符串字
原创
发布博客 2021.08.27 ·
1246 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Name node is in safe mode.

之前在抽取pg库数据时任务失败,报错:com.aliyun.emr.flow.agent.common.exceptions.EmrFlowException:###[E30001,STORAGE]: Failed to access the storage, cause: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /emr-flow/emr-header-1.cluster-23
原创
发布博客 2021.08.27 ·
556 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

is running beyond physical memory limits. Current usage: 1.0 GB of 1 GB physical memory used......

0、任务执行报错截图:1、错误分析:显示物理内存和虚拟内存的占用情况Container [pid=24845,containerID=container_1625047493764_0479_01_000001] is running beyond physical memory limits. Current usage: 1.0 GB of 1 GB physical memory used; 6.6 GB of 4.9 TB virtual memory used. Killing contai
原创
发布博客 2021.08.27 ·
3036 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

HDFS数据导入Hive表报错

1、报错:Failed with exception java.io.IOException:java.lang.RuntimeException: hdfs://emr-header-1.cluster-212710:9000/warehouse/hdcdt/ods/ods_act_activity_info/dt=2020-12-10/part-m-00000 is not a Parquet file. expected magic number at tail [80, 65, 82, 49] b
原创
发布博客 2021.08.27 ·
2198 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

MySQL数据库中文显示成问号的解决方案

问题现象插入到MySQL数据库的中文数据都显示为一个个的问号“?”原因定位一开始还以为是SecureCRT没有设置编码的原因,于是设置字符编码为UTF-8:还是不行,于是又把centos7设置为中文版本:结果还是不行,MySQL数据库还是显示的中文为一个个问号。解决办法初步判定是编码的问题。我们利用命令查看编码情况:mysql> show variables like'character_set_%';+-----------------------
原创
发布博客 2020.09.24 ·
11069 阅读 ·
4 点赞 ·
1 评论 ·
26 收藏

zookeeper无法启动,报“Unable to load database on disk”

问题背景:在三台虚拟机上都装了zookeeper服务,由于昨晚虚拟机在强制关机之前Zookeeper服务没有正常关闭,导致今天三台虚拟机上的第二台虚拟机(node02)上的Zookeeper服务不能正常启动,进程没有起来:原因定位:在node02机器上查看Zookeeper服务启动的日志,显示报错ERROR [main:QuorumPeer@577] - Unable to load database on disk问题解决:在该node02节点上将zookeeper以下目录中的vers
原创
发布博客 2020.09.08 ·
3026 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Linux下PostgreSQL安装部署详细步骤

目录一、安装环境二、pg数据库安装包下载三、安装依赖包四、安装postgres五、创建用户组postgres并创建用户postgres六、创建postgresql数据库的数据主目录并修改文件所有者七、配置环境变量八、切换用户到postgres并使用initdb初使用化数据库九、配置服务十、设置PostgreSQL开机自启动十一、开始测试一、安装环境postgresql-11.1 CentOS-6.4 注意:确认linux系统可以正常连接网络,因为在后.
原创
发布博客 2020.09.04 ·
37643 阅读 ·
59 点赞 ·
39 评论 ·
227 收藏

工作流调度器Azkaban的基本架构、运行模式、安装部署和使用案例详解

目录一、准备工作二、Azkaban介绍1. 为什么需要工作流调度系统2. Azkaban介绍三、Azkaban的基本架构四、Azkaban的三种运行模式五、Azkaban的安装部署1. Azkaban的编译2. Azkaban两个服务模式安装六、Azkaban使用场景案例1. Command类型单一job示例2. Command类型多job工作流flow3. HDFS操作任务4. MAPREDUCE任务5. HIVE脚本任务6. Azkaban
原创
发布博客 2020.09.03 ·
1468 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Sqoop常用命令及参数

目录一、常用命令列举二、命令&参数详解1、公用参数:数据库连接2、公用参数:import3、公用参数:export4、公用参数:hive5、命令&参数:import6、命令&参数:export7、命令&参数:codegen8、命令&参数:create-hive-table9、命令&参数:eval10、命令&参数:import-all-tables11、命令&参数:job12、命令&
转载
发布博客 2020.09.01 ·
3041 阅读 ·
3 点赞 ·
0 评论 ·
19 收藏

Sqoop安装部署和数据的导入导出案例详解

目录一、概述二、Sqoop的工作机制三、Sqoop1与Sqoop2架构对比四、Sqoop安装部署五、Sqoop的数据导入1. 列举出所有的数据库2. 准备表数据3. 导入数据库表数据到HDFS4. 导入到HDFS指定目录5. 导入到HDFS指定目录并指定字段之间的分隔符6. 导入关系表到Hive7. 导入关系表到Hive并自动创建Hive表8. 将MySQL表数据导入到HBase当中去9. 导入表数据子集10. SQL语句查找导入HDFS11.
原创
发布博客 2020.09.01 ·
576 阅读 ·
2 点赞 ·
1 评论 ·
2 收藏

Phoenix构建HBase二级索引案例实战

目录一、为什么要使用二级索引?二、全局索引和本地索引三、可变索引和不可变索引四、配置HBase支持Phoenix二级索引五、实战5.1 在phoenix中创建表5.2 导入测试数据5.3 Global Indexing的二级索引测试5.4 Local Indexing的二级索引测试5.5 如何确保query查询使用Index5.6 索引重建5.7 删除索引六、索引性能调优一、为什么要使用二级索引?对于HBase而言,如果想精确地定位到某行记录,唯一
原创
发布博客 2020.08.28 ·
683 阅读 ·
1 点赞 ·
1 评论 ·
4 收藏

Phoenix介绍和安装部署

目录一、Phoenix简介二、Phoenix安装部署1、下载安装包2、上传解压3、修改配置4、验证是否成功5、Phoenix使用1)批处理方式2)命令行方式3)GUI方式4)JDBC调用方式一、Phoenix简介 HBase 提供很方便的shell脚本以及java API等方式对Hbase进行操作,但是对于很对已经习惯了关系型数据库操作的开发来说,有一定的学习成本,如果可以像操作MySQL等一样通过sql实现对HBase的操作,那么很大程度降低...
原创
发布博客 2020.08.28 ·
1490 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Flume自定义Sink实现将数据写入到MySQL表中

目录需求说明代码开发步骤第一步:创建mysql数据库表第二步:定义mysqlSink类第三步:代码打包上传第四步:开发flume的配置文件第五步:启动flume第六步:创建文件验证数据进入mysql需求说明 官方提供的sink类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些sink。如:需要把接受到的数据按照规则进行过滤之后写入到某张mysql表中,所以此时需要我们自己实现MySQLSink。 官方也提供了自定义s
原创
发布博客 2020.08.27 ·
2098 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

Flume自定义Source实现从MySQL数据库获取数据

目录需求说明代码开发步骤第一步:创建mysql数据库表第二步:创建maven工程,添加依赖第三步:添加配置文件第四步:代码开发1. 定义查询mysql的工具类2. 自定义mysqlSource类第五步:打包上传到flume的lib目录下第六步:开发flume的配置文件第七步:启动flume官方提供的source类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些source。如:实时监控MySQL,从MySQL中获取数
原创
发布博客 2020.08.27 ·
1450 阅读 ·
2 点赞 ·
1 评论 ·
4 收藏

Flume综合案例之自定义拦截器使用

目录案例需求实现步骤第一步:创建maven java工程,导入jar包第二步:自定义flume的拦截器第三步:打包上传服务器第四步:开发flume的配置文件第五步:上传测试数据第六步:node03启动flume并查看结果在前面的文章中Flume拦截器(interceptor)详解和静态拦截器综合案例实现对拦截器做了介绍,本文再结合具体案例对自定义拦截的使用作进一步介绍。案例需求在数据采集之后,通过flume的拦截器,实现不需要的数据过滤掉,并将指定的第一个字段..
原创
发布博客 2020.08.27 ·
1152 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

Flume拦截器(interceptor)详解和静态拦截器综合案例实现

目录一、Flume拦截器(interceptor)介绍二、Flume内置的拦截器1、时间戳拦截器2、主机拦截器3、静态拦截器4、正则过滤拦截器三、静态拦截器综合案例实现1. 案例场景2. 场景分析3. 数据流程处理分析4. 实现一、Flume拦截器(interceptor)介绍 拦截器是简单的插件式组件,设置在source和channel之间。source接收到的事件event,在写入channel之前,拦截器都可以进行转换或者删除这些事件。...
原创
发布博客 2020.08.27 ·
5135 阅读 ·
2 点赞 ·
0 评论 ·
9 收藏

Flume负载均衡load balancer案例实现

目录Load balancing Sink Processor介绍负载均衡案例实现第一步:开发node01服务器的flume配置第二步:开发node02、node03服务器的flume配置第三步:准备启动flume服务Load balancing Sink Processor介绍Flume中的Sink Processors,顾名思义,就是沉槽处理器,也就是数据向哪里流,怎么流由处理器控制。以sinkgroup的形式出现。简单的说就是一个source 对应一个Sinkgroups,
原创
发布博客 2020.08.27 ·
808 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

高可用Flum-NG配置Failover故障转移案例

目录1. 角色分配2. node01安装配置flume与拷贝文件脚本3. node02与node03配置flume collection4. 顺序启动命令5. 测试FAILOVER高可用的Flume NG集群,架构图如下所示:图中所示,Agent1数据分别流入到Collector1和Collector2,Flume NG本身提供了Failover机制,可以自动切换和恢复。在上图中,有2个产生日志服务器分布在不同的机房,要把所有的日志都收集到一个集群中存储。下面我们开发配置Fl
原创
发布博客 2020.08.27 ·
237 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

HBase表的Rowkey设计和热点问题

目录Rowkey设计三原则1 rowkey长度原则2 rowkey散列原则3 rowkey唯一原则HBase表的热点1 什么是热点2 热点的解决方案2.1 预分区2.2 加盐2.3 哈希2.4 反转Rowkey设计三原则1 rowkey长度原则 rowkey是一个二进制码流,可以是任意字符串,最大长度64kb,实际应用中一般为10-100bytes,以byte[]形式保存,一般设计成定长。 建议尽可能短;但是也不能太短,否则rowkey前缀重
原创
发布博客 2020.08.25 ·
617 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

HBase集成Hive详解

目录一、HBase与Hive的对比二、HBase整合Hive配置三、需求一:将Hive表当中分析的结果保存到HBase表四、需求二:创建Hive外部表,映射HBase当中已有的表模型Hive提供了与HBase的集成,使得能够在HBase表上使用hive sql 语句进行查询、插入操作以及进行Join和Union等复杂查询,同时也可以将hive表中的数据映射到Hbase中。一、HBase与Hive的对比Hive 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文
原创
发布博客 2020.08.25 ·
611 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏
加载更多