- 博客(63)
- 资源 (1)
- 收藏
- 关注
原创 the result type of an implicit conversion must be more specific than Object
maven编译报错error: the result type of an implicit conversion must be more specific than Object [ERROR] props.put(“...
2021-02-08 14:14:00
3277
2
原创 Hive的TextFile、SequenceFile、RCfile 、ORCfile等压缩格式的区别
TextFile: 默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用,但使用Gzip这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。SequenceFile: SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Wr...
2020-12-31 23:09:00
3201
原创 Hive表jion数据倾斜问题解决办法
1) 过滤掉脏数据:如果大key是无意义的脏数据,直接过滤掉。本场景中大key无实际意义,为非常脏数据,直接过滤掉。2)数据预处理:数据做一下预处理,尽量保证join的时候,同一个key对应的记录不要有太多。3) 增加reduce个数:如果数据中出现了多个大key,增加reduce个数,可以让这些大key落到同一个reduce的概率小很多。4) 转换为mapjoin:如果两个表join的时...
2020-12-31 23:05:00
1325
原创 Kafka参数优化调整
1)Broker参数配置(server.properties)1、网络和io操作线程配置优化# broker处理消息的最大线程数(默认为3)num.network.threads=cpu核数+1# broker处理磁盘IO的线程数num.io.threads=cpu核数*22、log数据文件刷盘策略# 每当producer写入10000条消息时,刷数据到磁盘log....
2020-12-31 22:58:00
2423
1
原创 Hadoop的数据压缩算法应用场景
压缩格式Hadoop自带?算法文件扩展名支持切分换成压缩格式后,原来的程序是否需要修改DEFLATE是,直接使用DEFLATE.deflate否和文本处理一样,不需要修改Gzip是,直接使用DEFLATE.gz否和文本处理一样,不需要修改bzip2是,直接使用...
2020-12-31 22:50:00
1156
原创 hadoop服役新节点和退役旧节点步骤
1)节点上线操作:当要新上线数据节点的时候,需要把数据节点的名字追加在 dfs.hosts 文件中(1)关闭新增节点的防火墙(2)在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname(3)在每个新增数据节点的 hosts 文件中加入 NameNode 的 hostname(4)在 NameNode 节点上增加新增节点的 SSH 免密码登录的操作(5)在...
2020-12-31 22:49:00
1284
原创 ZooKeeper的选举机制
1)半数机制(Paxos 协议):集群中半数以上机器存活,集群可用。所以zookeeper适合装在奇数台机器上。2)Zookeeper虽然在配置文件中并没有指定master和slave。但是,zookeeper工作时,是有一个节点为leader,其他则为follower,Leader是通过内部的选举机制临时产生的3)以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的zookeep...
2020-12-31 22:48:00
1071
原创 Flume参数优化
1.Source增加Source个数(使用Tair Dir Source时可增加FileGroups个数)可以增大Source的读取数据的能力。例如:当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录,同时配置好多个Source 以保证Source有足够的能力获取到新产生的数据。batchSize参数决定Source一次批量运输到Channel的event条数,适当调大这...
2020-12-31 22:43:00
1213
原创 Flink跟Spark Streaming的区别
1)架构模型Spark Streaming 在运行时的主要角色包括:Master、Worker、Driver、Executor,Flink 在运行时主要包含:Jobmanager、Taskmanager和Slot。2)任务调度Spark Streaming 连续不断的生成微小的数据批次,构建有向无环图DAG,Spark Streaming 会依次创建 DStreamGraph、JobGener...
2020-12-31 22:35:00
1211
原创 zookeeperLorg.apache.zookeeper.ClientCnxn nexpected error, closing socket connection
报错如下org.apache.zookeeper.ClientCnxn - Session 0x102c87b7f880003 for server cweb244/10.17.2.241:2181, unexpected error, closing socket connection and attempting reconnectjava.io.IOException: Packet...
2020-12-28 21:04:00
1559
原创 新版supperset连接druid数据源设置
新版superset连接druid数据源设置 由于新版本supperset datasource 目录下移除了自带的连接druid数据源按钮,需要手动创建druid数据源。 官网文档里是这样写的: Supe...
2020-11-04 17:52:00
920
原创 Spark 分组聚合转Map 的方式
Spark DateFrame分组聚合转Map 的方式 比如按照年龄分组 把相同分组的人名聚合在一列 方法一:DateFrame自带函数 import org.apache.spark.sql.functions._...
2020-08-20 21:49:00
1317
原创 Hbase 根据rowkey批量读写
批量查询Hbase 传入一个rowkey List 返回一个嵌套 HashMap<String, HashMap<String, String>> public static HashMap<...
2020-07-28 21:59:00
1020
原创 idea本地连接访问hadoop集群的方法
先去集群中hive hadoop的配置目录中把以下4个site.xml文件下载下来 core-site.xmlhdfs-site.xmlhive-site.xmlyarn-site.xml 然后把这四个文件复制到ide...
2020-07-10 20:03:00
1251
原创 Spark的checkpoint详解
源码解释/***Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint 将此RDD标记为检查点。它将保存到检查点内的文件中*directory set with `SparkContext#setCheckpointDir` and all references to its ...
2020-06-08 10:53:00
1375
原创 hive 如何调优
hive 常见调优方法:0.11前版本开启MapJoin,之后的版本默认开启MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高JOIN效率行列过滤列处理:在SELECT中,只拿需要的列,如果有,尽量使用分区过滤...
2020-05-26 11:55:00
1131
原创 批量下载B站视频的方法
首先分析下b站的视频地址构成,如https://www.bilibili.com/video/BV1BW411R7QK?p=1,是由视频编号加节数组成,如p=1代表视频列表的第一集, p=2等与视频第二集。所以类似爬虫,我们可以循环使用脚本命令和第三下载工具,如wget或you-get(Python)实现批量下载以Python结合you-get为例import os# 检测you-g...
2020-05-20 13:03:00
3292
2
原创 Flink的三种时间语义与Exactly-Once的保证
Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。Ingestion Time:是数据进入Flink的时间。Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time。下级存储支持事务:Flink...
2020-03-21 22:24:00
1236
原创 Flink设置并行度的方式和执行级别顺序
Flink设置并行度的几种方式1.代码中设置setParallelism() 全局设置:env.setParallelism(3); 算子设置(部分设置):sum(1).setParallelism(3)2.客户端CLI设置(或webui直接输入数量):./bin/flink run -p 33.配置文件设置: 修改配置文件设置/conf/flink-co...
2020-03-18 11:01:00
2196
原创 Spark hive 数据倾斜的优化
数据倾斜产生的原因数据倾斜就是分布式计算过程中,数据分配不均匀,导致最终任务花费的时间很长或失败。不管是hive还是spark, 数据倾斜基本都发生在执行join count distinct、group by等会触发Shuffle操作时,如果key值分布过于集中,相同key的值就会被拉到一个节点上,容易发生单点计算问题,导致数据倾斜。数据倾斜导致的问题:SparkDriver和Exe...
2019-12-31 13:33:00
1199
原创 word HTML文件与Markdwon的互相转换
Tip:word文件与Markdwon转换往往是可逆的。无论使用哪种方式,要想完美转换,必须要预先处理掉markdown与word不兼容的格式,如word文件对象,带边框的代码块等等方法一:借助pandoc 或者结合Writage pandoc:Windows/Mac安装 下载地址https://pandoc.org/installing.html 也可从国内网站下载,最好...
2019-12-31 13:32:00
1276
原创 最新版DBeaver访问Hive的配置
最新版的DBeaver下载地址:https://dbeaver.io/download/ 选择免费社区版即可 首先要配置并开启hiveserver2服务 Tip:如同beeline一样 DBeaver是通过hivese...
2019-12-01 11:58:00
1679
原创 linux彻底卸载MySQL的方法
查看系统中是否以rpm包安装的mysql: [root@localhost opt]# rpm -qa | grep -i mysqlMySQL-server-5.6.17-1.el6.i686MySQL-clien...
2019-11-11 14:23:00
929
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅