大数据
文章平均质量分 93
ASN_forever
这个作者很懒,什么都没留下…
展开
-
Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。Inpu转载 2021-01-19 10:37:44 · 867 阅读 · 0 评论 -
HBase2.1.0分页查询(支持跳页)
HBase分页hbase中的数据是按照rowkey字典排序存储的,实现分页的思路有两个,一个是获取页面的起始rowkey,然后使用PageFilter来限制每页的数量。另一种是获取页面的起始rowkey和结束rowkey,然后直接调用scan的withStartRow和withStopRow查询即可。方案一、PageFilterhbase中有自带的PageFilter,能够实现分页功能,但是局限性很大,实际很少使用。就是说,PageFilter的作用域是单个的region,会从每个r原创 2020-12-31 17:38:16 · 4075 阅读 · 0 评论 -
hive3.1.2安装
下载安装包https://pan.baidu.com/s/17qYstZwDRV5tjkysCfeEZw提取码:ue1l解压到指定目录,如/opt/bigdata/hive-3.1.2配置环境变量export HIVE_HOME=/opt/bigdata/hive-3.1.2export PATH=$PATH:$HIVE_HOME/bin修改配置文件hive-site.xmlHive的默认配置文件是hive-default.xml.template,但里面有些错误。因此这里原创 2020-11-23 18:37:06 · 1129 阅读 · 0 评论 -
伪分布Hadoop2.7.6 hbase2.1.8升级到Hadoop3.1.3 hbase2.1.10
如果Hadoop集群配置了高可用,则可以进行不停服的滚动升级。但现在是伪分布的单节点集群,因此需要停止Hadoop及相关的应用,包括hbase、zookeeper等。Hadoop升级因为目前有跑flink作业,checkpoint是放在hdfs上的,因此先停掉对应的job(只需要停job,不用关flink集群) 停止hbase集群:stop-hbase.sh 停止Hadoop集群:stop-all.sh 备份hdfs元数据:包括namenode元数据、datanode元数据、临时数据,我都备份原创 2020-07-03 16:55:08 · 544 阅读 · 0 评论 -
centos安装airflow
首先需要安装python,pip,建议安装python3。我这里因为之前使用datax,安装的时python2,图省事就没有升级到python3.之后直接pip installapache-airflow进行安装,结果报一堆下面的错Requirement already satisfied: scandir; python_version < "3.5" in /home/kduser/.local/lib/python2.7/site-packages (from pathlib2; p.原创 2020-06-06 18:09:21 · 670 阅读 · 0 评论 -
HBase 入门之数据刷写(Memstore Flush)详细说明(转载)
接触过HBase的同学应该对HBase写数据的过程比较熟悉(不熟悉也没关系)。HBase 写数据(比如 put、delete)的时候,都是写 WAL(假设 WAL 没有被关闭) ,然后将数据写到一个称为 MemStore 的内存结构里面的,如下图:但是,MemStore 毕竟是内存里面的数据结构,写到这里面的数据最终还是需要持久化到磁盘的,生成 HFile。如下图:如果想及时了...转载 2020-04-24 11:11:34 · 436 阅读 · 0 评论 -
No factory implements 'org.apache.flink.table.factories.DeserializationSchemaFactory'.
Caused by: org.apache.flink.table.api.NoMatchingTableFactoryException: Could not find a suitable table factory for 'org.apache.flink.table.factories.DeserializationSchemaFactory' inthe classpath.R...原创 2020-04-10 13:29:51 · 2668 阅读 · 1 评论 -
dataX从mysql导出数据到hbase
业务数据库中存了大量的历史数据,导致在根据业务条件查询数据的时候效率太低。因此考虑将原始的业务数据通过SQL先做一遍处理后放到中间表,然后再把中间表的数据同步到hbase,以后直接从hbase查询数据。当然这个还涉及到增量数据如何同步,如何保证增量数据不丢失等问题,不在这里记录。这里只记录mysql中的数据如何全量同步到hbase。异构数据源之间的数据迁移工具比较多,常用的有kettle、sq...原创 2020-03-17 09:02:29 · 1073 阅读 · 0 评论 -
hbase优化
转自:https://yq.aliyun.com/articles/644139?spm=a2c4e.11155472.0.0.74bb68c6ROboVF1.概述HBase是一个实时的非关系型数据库,用来存储海量数据。但是,在实际使用场景中,在使用HBase API查询HBase中的数据时,有时会发现数据查询会很慢。本篇博客将从客户端优化和服务端优化两个方面来介绍,如何提高查询HBase...转载 2020-03-12 20:17:57 · 345 阅读 · 0 评论 -
flink整合apollo
1.使用flink的maven骨架快速创建一个maven项目2.添加apollo及其他所需依赖<!-- apollo --> <dependency> <groupId>com.ctrip.framework.apollo</groupId> <artifactId>apollo-client</art...原创 2020-03-11 18:34:14 · 1131 阅读 · 0 评论 -
hbase2.1.6协处理器使用
对于2.1.6这个版本,使用协处理器需要引入hbase-common依赖。1.写协处理器实现类package com.asn.bigdata.hbase;import java.io.IOException;import java.util.Optional;import org.apache.hadoop.conf.Configuration;import org.apac...原创 2020-02-16 11:14:19 · 1248 阅读 · 4 评论 -
elasticsearch新旧索引数据迁移
我们知道elasticsearch中的索引一旦设置了映射规则之后就不能修改了,因为lucene实现的倒排索引生成后不允许修改。但有时我们需要对旧的索引使用新的mapping映射,以支持需要的查询。比如旧的索引有个"testText"字段,其类型为text类型。text会进行分词分析,因此对此字段进行聚合之类的操作时会出现问题,具体可以看这篇文章。那么有没有其他方式实现修改映射呢?答案是有的,但...原创 2019-12-27 14:25:31 · 1125 阅读 · 0 评论 -
elasticsearch text类型聚合操作
基础:es版本6.0text类型时分析型类型,默认是不允许进行聚合操作的。如果想对text类型的域(就是字段、属性的意思)进行聚合操作,需要设置其fielddata为true。但这样设置完了只是满足聚合要求了,而无法满足精准聚合,就是说text类型还是会进行分词分析过程,导致针对一个text类型的域进行聚合的时候,可能会不准确。因此还需要设置此字段的fileds子域为keyword类型,经过这...原创 2019-12-26 19:24:31 · 6096 阅读 · 0 评论 -
centos7搭建flink-1.7.2-bin-hadoop27-scala_2.12 yarn模式集群
flink集群flink可以基于自身的standalone模式进行分布式集群计算,也可以利用第三方资源管理器完成分布式集群计算。目前比较流行的第三方资源管理器包括Hadoop Yarn,Apache Mesos,Kubernetes等。但是相对来说,因为yarn能够同时支持hadoop mapreduce和spark等大数据框架,因此普遍使用yarn模式来管理集群资源。因此这里主要对yarn模...原创 2019-10-20 01:23:22 · 1005 阅读 · 1 评论 -
IDEA配置flink开发环境及local集群代码测试
背景:最近公司需要引入flink相关框架做一些大数据报表分析的任务,之前没有实际接触过flink,所以需要学习一下。此外,防止看完就忘,也为了后续的回顾学习,因此在这里做一个整理,也希望帮助到有需要的朋友。环境准备:我这里是在自己的笔记本上搭建的环境VMware 安装centos7虚拟机 并配置好网络等 win10安装idea 并配置maven(要求3.0以上,我用的3.6.2)...原创 2019-10-19 15:28:29 · 2262 阅读 · 0 评论 -
windows本地Eclipse开发spark程序打包到集群运行
windows环境下基于Eclipse开发spark的配置可以看上一篇博文:https://blog.csdn.net/ASN_forever/article/details/84747317本篇主要记录如何在windows本地用Eclipse开发spark程序以及如何打包到Linux集群去运行。 首先在Eclipse中创建一个maven项目,并配置好pom(具体细节看上一篇配置博文)...原创 2018-12-03 17:01:06 · 1373 阅读 · 0 评论 -
spark2.1.0配置windows本地基于java语言的Eclipse开发环境
前面配置过在windows本地通过Eclipse开发hadoop程序然后打成jar包在Linux集群中运行的经历,因此一方面是基于同样的需求,另一方面是因为我是spark小白,想通过这种方式快速了解和学习spark开发。(注意:此文配置的是基于java语言开发spark的,如果要用scala开发,则需要在Eclipse中添加scala插件并做进一步配置。如果要用python开发,则最好用pyc...原创 2018-12-03 11:25:27 · 1209 阅读 · 3 评论 -
spark启动pyspark shell时报错socket.error: [Errno 99] Cannot assign requested address
这是个socket请求错误,意思是说不能为其分配请求的地址。 分析原因:socket发起connect请求的时候会随机分配一个端口给你。这个分配的端口是有范围的,记录在:/proc/sys/net/ipv4/ip_local_port_range可以看到我的端口范围是32768到60999。当你用多个进程发起过多的请求的时候,端口用完了就会报这个错误。解决办法:要解...原创 2018-12-01 14:33:53 · 1662 阅读 · 0 评论 -
大数据相关算法面试题
摘自:https://www.cnblogs.com/simonote/articles/3087185.html转载 2018-11-21 13:54:21 · 261 阅读 · 0 评论