大數據
aa1215018028
这个作者很懒,什么都没留下…
展开
-
Elasticsearch持久化过程详解
前言这篇文章主要介绍Elasticsearch的索引工作机制,它是如何利用translog来保证数据的安全,以及我们在生产环境中如何优化translog的参数来最大化性能,主要会介绍到elastic中常见的2个操作:refresh和flush,以及这2个接口是如何保证数据能够被检索到的。一、数据持久化我们把数据写到磁盘后,还要调用fsync才能把数据刷到磁盘中,如果不这样做在系统掉电的时候就会导致数据丢失,这个原理相信大家都清楚,elasticsearch为了高可靠性必须把所有的修改持久化到磁盘原创 2020-09-23 09:52:45 · 7933 阅读 · 2 评论 -
Elasticsearch7 mapping和setting简介
一、介绍:一句话概述:es是基于lucene分片(shard)存储的近实时的分布式搜索引擎。名词解释:Lucene:使用java语言编写的存储与查询框架,通过组织文档与文本关系信息进行倒排索引,内部形成多个segment段进行存储,是es的核心组件,但不具备分布式能力。segment:Lucene内部最小的存储单元,也是es的最小存储单元,多个小segment可合为一个较大的seg...原创 2019-12-02 11:04:05 · 4568 阅读 · 0 评论 -
23个最有用的ES检索技巧(Java API实现)
前言本文是对 23个最有用的Elasticseaerch检索技巧 一文提到的ES检索技巧进行 Java API 的简单实现,但仅限于简单实现,并不考虑包括参数校验,异常处理,日志处理,安全等问题,仅供参考代码见 UsefullESSearchSkill ,原查询语句请对照原文运行环境JDK version : 10.0.2gradle version : 4.7Elastics...原创 2019-06-03 11:57:27 · 679 阅读 · 0 评论 -
ES 全文搜索
ES 全文搜索全文搜索GET /my_index/my_type/_search{ "query": { "match": { "title": "BROWN DOG!" } }}使用了match查询的多词查询只是简单地将生成的term查询包含在了一个bool查询中。通过默认的or操作符,每个term查询都以...原创 2019-06-03 18:04:01 · 1077 阅读 · 0 评论 -
es多条件查询之must用法(Java实现)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30...原创 2019-06-04 10:31:55 · 8994 阅读 · 2 评论 -
Flink中CheckPoint详细
Flink提供了Exactly once特性,是依赖于带有barrier的分布式快照+可部分重发的数据源功能实现的。而分布式快照中,就保存了operator的状态信息。 Flink的失败恢复依赖于检查点机制+可部分重发的数据源。 检查点机制机制:checkpoint定期触发,产生快照,快照中记录了:当前检查点开始时数据源(例如Kafka)中消息的offset。 记录了所有...原创 2019-06-21 09:13:33 · 17078 阅读 · 6 评论 -
ET讲解
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从...原创 2019-06-12 10:39:15 · 1156 阅读 · 0 评论 -
Flink state,checkpoint详解
目录目录背景(1)介绍,实现方式分类(2) 使用Manage State,Flink自动实现state保存和恢复(3) 自定义state 自行实现实现checkpoint接口借鉴文章背景 Flink相对于Storm和Spark Stream比较大的一个优势就是State,pipline中可以保存状态,这对于解决业务是有巨大的帮助,否则将...原创 2019-07-22 14:55:31 · 2152 阅读 · 0 评论 -
Flink并行度与slot之间的关系
简介 Flink运行时主要角色有两个:JobManager和TaskManager,无论是standalone集群,flink on yarn都是要启动这两个角色。JobManager主要是负责接受客户端的job,调度job,协调checkpoint等。TaskManager执行具体的Task。TaskManager为了对资源进行隔离和增加允许的task数,引入了slot的概...原创 2019-08-05 12:17:40 · 5346 阅读 · 0 评论 -
Elasticsearch:跨集群数据迁移之离线迁移
跨集群数据迁移用户在腾讯云上自建的ES集群或者在其它云厂商购买的ES集群,如果要迁移至腾讯云ES,用户可以根据自己的业务需要选择适合自己的迁移方案。如果业务可以停服或者可以暂停写操作,可以参考离线迁移的四种方案。离线迁移离线迁移需要先停止老集群的写操作,将数据迁移完毕后在新集群上进行读写操作。适合于业务可以停服的场景。离线迁移大概有以下几种方式:elasticsearch-dum...原创 2019-08-13 10:48:27 · 1932 阅读 · 0 评论 -
Hbase java API详解
一、几个主要 Hbase API 类和数据模型之间的对应关系:1、 HBaseAdmin关系: org.apache.hadoop.hbase.client.HBaseAdmin作用:提供了一个接口来管理 HBase 数据库的表信息。它提供的方法包括:创建表,删除表,列出表项,使表有效或无效,以及添加或删除表列族成员等。2、 HBaseConfiguration关系: org...原创 2019-08-31 12:23:50 · 1074 阅读 · 0 评论 -
Flink Table API 使用详解
Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改。Table API是SQL语言的超集并专门为Apache Flink设计的,Table API是Scala 和Java语言集成式的API。与常规SQL语言中将查询指定为字符串不同,Table API查询是以Java或Scala中的语言嵌入样式来定义的,具有IDE支持如:自动完...原创 2019-05-17 18:10:33 · 5160 阅读 · 3 评论 -
Hadoop cdh版本搭建
1概述本文是针对LinuxCentos7服务器与CDH5.11的安装手册。1.2 关于CDH和ClouderaManagerCDH(Cloudera's Distribution, includingApache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloude...原创 2019-05-13 12:07:58 · 510 阅读 · 0 评论 -
flink KeyedStream的reduce操作
序本文主要研究一下flink KeyedStream的reduce操作实例 @Test public void testWordCount() throws Exception { // Checking input parameters// final ParameterTool params = ParameterTool.fromA...原创 2019-05-21 10:43:51 · 1736 阅读 · 0 评论 -
openTSDB+Hadoop+HDFS+Hbase+Zookeeper单点安装部署
1.zookeeper安装部署 下载:https://www.apache.org/dyn/closer.cgi/zookeeper/ 解压:tar -zxvf zookeeper-3.4.13.tar.gz cd zookeeper-3.4.13/conf mv zoo_sample.cfg zoo.cfg vim zoo.cfg 编辑配置文件 d...原创 2019-03-22 14:30:56 · 1103 阅读 · 0 评论 -
Hbase命令使用详解
./hbase shell help help “get” #查看单独的某个命令的帮助1. 一般命令 status 查看状态 version 查看版本2.DDL(数据定义语言Data Definition Language)命令1. 创建表create ‘表名称’,’列名称1’,’列名称2’,’列名称3’如:create 'member...原创 2019-04-04 17:10:37 · 776 阅读 · 0 评论 -
Hadoop集群搭建
本文搭建了一个由三节点(master、slave1、slave2)构成的Hadoop完全分布式集群(区别单节点伪分布式集群),并通过Hadoop分布式计算的一个示例测试集群的正确性。本文集群三个节点基于三台虚拟机进行搭建,节点安装的操作系统为Centos7(yum源),Hadoop版本选取为2.8.0。作者也是初次搭建Hadoop集群,其间遇到了很多问题,故希望通过该博客让读者避免。实验过...原创 2019-03-28 15:42:17 · 513 阅读 · 0 评论 -
java Hbase异步批量写入
import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filte...原创 2019-04-12 11:15:56 · 1081 阅读 · 0 评论 -
Hbase集群安装部署
HBase 的安装有两种方式:单机安装和分布式安装。HBase的单机安装了解即可,大家重点掌握HBase 分布式集群的安装。下面我们分别进行介绍。HBase 单机安装HBase 需要运行在 Hadoop 基础之上,因此安装HBase 的前提是必须安装 Hadoop 环境。Hadoop 环境的安装可以参考前面课程的内容。下载与Hadoop2.2.0或者 Hadoop2.6.0相匹配的hbas...原创 2019-04-10 10:02:59 · 1435 阅读 · 0 评论 -
OpenTSDB写数据
写入的一些配置和设计会对OpenTSDB数据库性能产生影响,所以这不单单是简单的数据输入,第一部分主要是对数据的写入规范。原地址http://opentsdb.net/docs/build/html/user_guide/writing/index.html写数据(Writing Data)您可能希望直接进入并开始将数据投入TSD,但要真正利用OpenTSDB的强大功能和灵活性,您可能...原创 2019-04-17 12:56:04 · 317 阅读 · 0 评论 -
HBase常用命令
HBase常用命令进入shell[hadoop@indb-3-136-hzifc bin]$ echo $HBASE_HOME/data/program/hbase[hadoop@indb-3-136-hzifc bin]$ /data/program/hbase/bin/hbase shellSLF4J: Class path contains multiple SLF4J bin...原创 2019-04-15 11:33:03 · 313 阅读 · 0 评论 -
flink入门原理简介
Apache Flink(以下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念。Fl...原创 2019-05-10 11:36:51 · 393 阅读 · 0 评论 -
基于flink的流数据统计
一、统计流程image.png所有流计算统计的流程都是:1、接入数据源2、进行多次数据转换操作(过滤、拆分、聚合计算等)3、计算结果的存储其中数据源可以是多个、数据转换的节点处理完数据可以发送到一个和多个下一个节点继续处理数据Flink程序构建的基本单元是stream和transformation(DataSet实质上也是stream)。stream是一个中间结果数据...原创 2019-05-20 18:17:43 · 2643 阅读 · 0 评论 -
Hadoop半点启动配置
系统:ubuntu-14.04.3-desktop-amd64+mac.isohadoop版本: hadoop-2.7.1jdk版本:jdk-7u79-linux-x64.tar.gz1. 安装配置JDK1.1) 解压jdksudo tar zxvf jdk-7u79-linux-x64.tar.gz -C /usr/lib/java1.2) 修改环境变量sudo vim...原创 2019-02-15 19:44:01 · 165 阅读 · 0 评论