大数据
文章平均质量分 87
奔跑的前浪
看红尘冉冉,须臾之间,参遍昙华演变。问法珠玄玄,方寸有变,听尽默剑说禅
展开
-
【Elasticsearch】Elasticsearch 索引恢复流程源码分析
一:索引恢复介绍 索引恢复是ES数据恢复过程。比如当集群宕机或者异常重启后,写入磁盘的数据先到文件系统缓存中,没有来的级刷盘,如果不通过某种方式把数据找回来,则会丢失一部分数据,找回数据丢失的过程就是索引恢复过程。 根据数据分片的性质,索引分为主副分片,那么数据恢复就要分为主分片恢复和副分片恢复。 主分片主要从Translog中自我恢复,尚未执行flush到磁盘的分段可以从tanslog中重建 副分片需要从主分片中拉取Lucene分段和tanslog进行恢...原创 2021-01-28 16:32:24 · 995 阅读 · 0 评论 -
【Flink】Flink的分区策略及源码分析
一:Flink的分区策略 在Flink的应用中,每个算子都可以设置并行度,比如上游的Map算子的并行度为3,而下游filter的算子并行度为4,那当上下游算子并行度不一致的情况下,flink怎么传递数据呢,这就涉及到Flink的分区策略二:Flink的分区关键类源码分析Flink 中分区策略中有一个抽象类StreamPartitioner,源码如下:public abstract class StreamPartitioner<T> implements Chan...原创 2020-11-30 16:54:21 · 1041 阅读 · 0 评论 -
【Elasticsearch】Elasticsearch 的allocation模块源码流程分析
allocatio模块介绍 ES的分片分配就是把分片指派到集群中某个节点的过程,分配决策是有主节点完成的,其分配决策主要有两两面 1:哪些节点需要分配到哪个节点 2:哪个分片是主分片,哪个分片是副分片 对于分片的分配主要有两个组件allocation和deciders完成,allocation的任务是找个最优的节点来分配分片,而deciders负责判断是否要进行这次分配。 比如对于新建索引,allocation模块负责找出拥有分片最少的节点列表,然后deciders依次遍历节点,决定要不...原创 2020-11-20 15:11:30 · 844 阅读 · 0 评论 -
【Elasticsearch】Elasticsearch gateway模块源码分析
Elasticsearch gateway模块源码分析一:介绍 gateway模块负责集群元数据的存储和集群重启时候元数据的恢复.Elasticsearch的元数据含有集群层元数据、索引层元数据、分片层元数据; gateway模块主要负责集群层和索引层的元数据恢复,分片层的元数据是由allocation模块负责;二:gateway元数据的恢复过程 当集群完全重启后,达到recovery条件时候,进入元数据恢复流程,其主要实现在GatewayService类中,其过程如下 publ...原创 2020-11-20 10:25:42 · 382 阅读 · 0 评论 -
kafka之一 入门介绍
kafka 入门转载 2017-01-24 10:04:13 · 643 阅读 · 0 评论 -
kafka之三 Kafka 高可用
kafka转载 2017-01-24 14:53:45 · 607 阅读 · 0 评论 -
sqoop从greenplum到数据到hive中
关于sqoop原理详见官文,这里都不做介绍,此处就记录用sqoop把greenplum数据导到hive中的方法和我测试时候遇到的问题;一:sqoop的解压安装后,配置sqoop-env.sh配置文件二:把链接数据库的mysql-connector-java-5.1.3-jar包传到sqoop lib目录下三:执行导入命令:sqoop import -m1 \ ------转载 2017-04-14 13:50:35 · 5730 阅读 · 2 评论 -
Flink之四 容错机制
Flink流处理的容错机制 批处理系统比较容易实现容错机制,由于文件可以重复访问,当某个任务失败后,重启该任务即可。但是在流处理系统中,由于数据源是无限的数据流,一个流处理任务甚至可能会执行几个月,将所有数据缓存或是持久化,留待以后重复访问基本上是不可行的。Flink基于分布式快照与可部分重发的数据源实现了容错,用户可自定义对整个Job进行快照的时间间隔,当出现任务失败时,转载 2017-02-04 16:15:24 · 1536 阅读 · 0 评论 -
spark入门之五 task提交
spark原创 2017-01-30 21:29:45 · 656 阅读 · 0 评论 -
spark整合kafka案例
spark 整合kafka转载 2017-08-03 11:30:26 · 1535 阅读 · 1 评论 -
分布式基本副本控制协议
分布式协议转载 2017-08-30 14:39:55 · 705 阅读 · 0 评论 -
yarn提交总结
注:此记录仅做自己学习记录yarn的提交过程简单的总结如下:第一步:client 通过RPC 的applicationClientProcotol协议提交客户自己编码的应用程序到 resourceManager第二步:applicationMaster 启动后,首先向resourceManager 进行注册,注册通过RPC 的 applicationMasterProcotol协议原创 2017-09-07 15:13:51 · 674 阅读 · 0 评论 -
ERROR: java.io.IOException: Table Namespace Manager not fully initialized, try again later
ERROR: java.io.IOException: Table Namespace Manager not fully initialized, try again later at org.apache.hadoop.hbase.master.HMaster.checkNamespaceManagerReady(HMaster.java:2693) at org.apache...原创 2018-08-10 17:15:02 · 2298 阅读 · 1 评论 -
Kafka 之六 connector
一:介绍 kafka Connect 是一个kafka和其他系统交互稳定的流处理。它使kafka和其他系统的数据交互变的十分容易。它可以把其他系统的数据导入到kafka中,也可以把kafka的数据导到其他系统中。它有下面的特征: 1:对于Kafka connectors它有一套通用的框架 2:可以分布式部署,也转载 2016-12-20 09:35:55 · 7051 阅读 · 2 评论 -
Flink之三 flink on yarn
Flink的运行模式 flink的运行模式有local模式,cluster,yarn等模式;flink集群层次结构 这一节我们主要一起了解flink on yarn 模式,flink on yarn 有两种模式: 一:long-running Flink cluster on YARN 二 : run a Flink job on YARN转载 2017-02-04 13:35:28 · 3083 阅读 · 1 评论 -
Flink之二 Flink安装及入门案例
Flink安装、作业提交案例原创 2017-02-03 14:26:27 · 7923 阅读 · 2 评论 -
推荐系统协同过滤
推荐系统的应用遍及电商网站,基本上的电商网站几乎都有推荐系统,比如一些电影网站,当你看一部恐怖片后,网站会推荐一些口味比较相似的恐怖片,还有就是你在淘宝浏览了一个某品牌的手机,那淘宝可能推荐其他品牌的手机,或同类品牌不同类型的手机。可以说推荐系统已经全面的应用到各种场合,下面我们就来一起学习推荐系统之协同过滤; 协同过滤可以分为基于物品的协同过滤、基于用户的协同过滤;一般电商网站用基于物品的原创 2017-02-05 12:58:59 · 685 阅读 · 0 评论 -
数据仓库和传统数据库的关系
数据仓库原创 2017-02-07 13:14:50 · 5813 阅读 · 2 评论 -
决策树分类
分类方法用于预测数据对象的离散类别;而预测则用于预测数据对象的连续取值;原创 2017-02-08 10:06:49 · 1702 阅读 · 0 评论 -
kafka之四 consumer 解析
摘要 主要介绍了Kafka High Level Consumer,Consumer Group,Consumer Rebalance,Low Level Consumer原理,以及适用场景和Java API实现High Level Consumer 原理 High Level Consumer API围绕着Consumer Group这个逻辑概念展开,它屏蔽了每个To原创 2017-01-25 10:07:11 · 1796 阅读 · 0 评论 -
kafka之二 文件存储
kafka原创 2017-01-24 13:24:50 · 829 阅读 · 0 评论 -
elasticsearch 快速创建同义词
搜索索引的时候,通常都会出现同义词现象。比如搜索安全套,那避孕套也要出来呀。这就要建设同义词啦。1:其实同义词道理很简单,先配置分词和过滤见下面配置index.analysis.analyzer.default.type: ik index: analysis: analyzer: ik_smart: type: ik原创 2016-12-15 15:48:59 · 1593 阅读 · 0 评论 -
elasticsearch 自定义 script score JavaAPI查询
一:自定义score的应用场景 先打个比方,比如新产品上架了,我想让最新上架的产品搜索时候,排在前面,怎么办呢?很简单按时间排序。嗯这种方法很好实现。但下面又有个需求,比如我要求排序中上架时间的比重为40%,自营产品为20%,促销产品的比重为40%,这怎么排序呢?单单靠排序估计很难实现。(不排除有些大神可以实现哈)。下面就介绍一个简单的实现方法。---------猪脚上场--翻译 2016-12-15 14:11:19 · 21652 阅读 · 1 评论 -
kafka之七 sinkTask
kafka sinktask原创 2017-01-26 15:08:09 · 3099 阅读 · 2 评论 -
spark入门之一 spark组件
spark原创 2017-01-27 14:07:23 · 11096 阅读 · 0 评论 -
kafka之五 kafkaAdmin API
kafka 创建topic javaAPI原创 2017-01-26 13:55:46 · 6564 阅读 · 0 评论 -
spark入门之二 spark作业提交流程
spark 作业提交原创 2017-01-28 14:43:15 · 2215 阅读 · 0 评论 -
elasticsearch-jdbc插件快速部署和要点说明
elasticsearch 于mysql 同步原创 2016-12-15 13:46:16 · 1605 阅读 · 0 评论