![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 61
流觞曲水向东流
这个作者很懒,什么都没留下…
展开
-
org.apache.flink.shaded.guava18.com.google.common.util.concurrent.ThreadFactoryBuilder 真实解决方案
FlinkCDC遇到的问题原创 2022-06-07 18:40:01 · 5032 阅读 · 18 评论 -
Hive索引
Hive之索引1.什么是索引?2.Hive为什么删除索引以及Hive的推荐方式2.Hive索引创建方式2.1创建、查看与删除索引2.2先创建在构建、查看与删除索引2.3创建位图(bitmap)索引、查看与删除2.4在一张新表上创建索引2.5 创建RCFile格式的索引2.6 创建TEXTFILE格式的索引2.7 创建带有索引属性的索引2.8 创建带有表属性的索引2.9 删除索引2.10 在分区上重建索引1.什么是索引?众所周知,给数据库的表中增加索引可以有效的提高查询效率,Hive也是存在索引的,其创建原创 2021-02-20 11:05:42 · 1223 阅读 · 0 评论 -
Spark自带求π的算法:蒙特卡洛算法
标题Spark自带求π的算法:蒙特卡洛算法** 1.在我们对spark集群进行压力测试时,通常会选择spark自带计算π的类来进行测试,那么spark内部到底是如何求π的呢?我们这里先上一段测试脚本: **bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cl...原创 2020-05-03 17:49:38 · 1391 阅读 · 0 评论 -
Hive相关调优知识
介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾...原创 2020-03-18 22:51:01 · 199 阅读 · 0 评论 -
Linux入门以及精通
一、配置网络1.虚拟化软件(vmware)a)编辑–>虚拟网络编辑器–>VM8–>子网IP:192.168.x.0(只需要改x即可,x为1-255中任何一个数字【注意,windows本机ip的x部分与虚拟机x部分不能相同】),点击确定b)点击NAT设置,看网关IP是否是192.168.x.2,一般默认就为这个2.Linxu虚拟机网络设置系统–>首选项–>网络...原创 2020-01-12 23:07:21 · 238 阅读 · 0 评论 -
Redis基础知识与入门
一、安装1.检查是否有gcc-c++环境ps -ef | grep gcc-c++如果没有,则需要安装:yum install –y gcc-c++2.开始安装redisa)编译在redis解压后根目录里面的src目录下执行make命令b)安装编译完成之后,执行make install命令,文件会被安装到/usr/local/bin二、启动将配置文件redis.conf拷贝一份...原创 2020-01-05 18:16:09 · 198 阅读 · 0 评论 -
JVM分析(基于JDK1.8):类加载过程、堆的新生代与老年代
一、安装1.检查是否有gcc-c++环境ps -ef | grep gcc-c++如果没有,则需要安装:yum install –y gcc-c++2.开始安装redisa)编译在redis解压后根目录里面的src目录下执行make命令b)安装编译完成之后,执行make install命令,文件会被安装到/usr/local/bin二、启动将配置文件redis.conf拷贝一份...原创 2020-01-01 21:18:19 · 620 阅读 · 1 评论 -
sqoop应用及介绍
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle…)之间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署...原创 2019-12-28 21:21:39 · 415 阅读 · 0 评论 -
Phoenix应用及介绍
全局索引,生成一个索引表,存储在hbase!适用于多读少写场景!在向表写入数据时,不仅要更新数据,还要更新索引!索引表有可能分布在另外一台RS中,插入数据时,不仅向当前RS写数据,还需要向索引所在RS发送更新请求!会带来额外的网络开销!局部索引,在region中多生成一列,存储索引!存储在region中,索引和数据由一台RS负责!更新时,不需要跨RS执行更新!适用于多写的场景!...原创 2019-12-27 23:04:46 · 613 阅读 · 1 评论 -
Azkaban介绍及其使用
Azkaban是一个调度系统原创 2019-12-26 22:40:20 · 136 阅读 · 0 评论 -
Hadoop(三)hadoop深入理解与高级应用
待发布…原创 2019-12-24 18:37:40 · 218 阅读 · 0 评论 -
Hadoop(二)hadoop介绍以及MapReduce
Map阶段需要继承Mapper类实现自定义核心逻辑,Reduce阶段需要继承Reducer实现自定义核心逻辑:1.易于编程2.高容错一台机器挂了,可以把上面的任务转义到另外一个节点上运行,不至于这个任务运行失败3.适合PB级以上数据的离线处理...原创 2019-12-19 23:14:50 · 77 阅读 · 0 评论 -
Hadoop(一)hadoop介绍以及HDFS
HDFS:分布式文件系统,负责大数据文件的读写,HDFS适合一次写入,多次读出,不支持文件的修改(随机写),支持对文件的追加!原因: HDFS在存储文件时,以块的形式存储!...原创 2019-12-17 20:48:15 · 107 阅读 · 0 评论 -
Flume原理及架构深入
1.说明:高可用,高可靠,分布式的海量日志采集,聚合和传输系统,Flume基于流式架构,灵活简单;2.flume可监控文件夹日志以及端口传输的数据3.flume进程名称:Application...原创 2019-12-14 20:35:49 · 264 阅读 · 0 评论 -
Hive以及其架构
Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。Hive 在查询数据的时候,由于没有索引,需要扫描整个表,因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce框架。由于MapReduce 本身具有较高的延迟,因此在利用MapReduce 执行Hive查询时,也会有较高的延迟。相...原创 2019-12-11 23:29:39 · 100 阅读 · 0 评论 -
Sublime Text 3 使用sftp远程访问文件
Sublime Text 3 使用sftp远程访问文件最近准备使用Sublime Text 3的远程服务来访问远程文件,并对文件进行相应的操作,发现这个远程修改文件工具还是蛮不错的,网上有些教程存在一些问题,这里附上详细教程:1.打开Sublime Text 3依次点击文件–>SFTP–>Setup Server2.此时会弹出一个配置文件:3.修改此配置文件相关重要配置...原创 2019-12-08 21:06:27 · 1020 阅读 · 0 评论 -
HBase基础以及架构深入了解
HBase基础以及架构深入了解HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。面向列的数据库。hbase中所有的列(包含主键)全部都是字节数组...原创 2019-12-07 21:12:04 · 281 阅读 · 0 评论 -
Zookeeper原理及架构深入
一.zookeeper介绍1.什么是zookeeper?Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目,多用作为集群提供服务的中间件!官网也对此做了介绍:zookeeper这个词语翻译过来就是"动物园管理员",主要是为hadoop体系集群提供服务的中间件,之所以叫zookeeper,是因为hadoop体系的框架大多是以动物作为logo,所以zookeep...原创 2019-12-05 20:23:59 · 209 阅读 · 0 评论 -
kafka基础架构及核心知识
kfka基础架构及核心知识目录一、kfka介绍以及说明1.kfka介绍以及名字由来2..kfka数据存储3.kafka高效的原因4.kafka的特点二、kafka集群的安装与部署三、kafka的核心组成1.Broker2.Topic3.Partition4.Offset5.持久化6.副本机制7.Producer8.Consumer9.Consumer Group四、shell客户端操作kafka五...原创 2019-12-04 23:20:30 · 1684 阅读 · 0 评论