自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 Elasticsearch 基础:数据搜索流程

ES 数据搜索流程ES 的数据召回是一个比较复杂的流程,因为绝大多数的 ES 都是以集群形式存在的,同时由于存储结构等方面的因素,数据在进行召回打分时需要经历很长的链路才能最终返回。主线流程接受请求路由与寻址分片选择和请求转发执行搜索计划搜索的后处理返回结果接受请求ES 集群中的所有节点理论上都可以接受搜索请求,其中无论是通过普通的 _search 接口还是 url 等方式只是程序的入口不同,中间的 query 解析的部分会有些许差别,后台对 query 的解析和处理逻辑是一致的。事

2022-02-17 09:26:57 550

原创 Elastic stack 认证:可观测性认证工程师 (ECOE, elastic certified observability engineer)指标采集(Metric)

指标监控elastic stack 的指标监控可以通过 metricbeat 配合几十种的 module 对各种服务器环境及服务实例自身的状态信息进行采集和上报。配置启动安装修改相关配置输出到 ES output.elasticsearch: hosts: ["myEShost:9200"] username: "metricbeat_internal" password: "YOUR_PASSWORD" (可选)初始化 Kibana(如果 Kibana

2022-02-12 20:28:28 979

原创 Elastic stack 认证:可观测性认证工程师 (ECOE, elastic certified observability engineer)overall介绍及日志采集(Filebeats)

Elastic 可观测性elastic 可观测性 就是让你依托于简单的 elastic stack 组建帮忙采集你的日志、监控指标、存活时间、应用埋点、用户行为等信息,帮忙进行一部分的数据预处理,写入 Elasticsearch 并可以通过 Kibana 做后续的操作。在所有环境中尽可能实时的对事件进行搜索、监控、分析,比如分析某些事务里的日志、通过监控指标验证某些服务的性能、对服务进行保活等。组件安装安装 ES、Kibana、APM(APM安装)通过 Filebeat 采集日志(log)数据(d

2022-02-05 14:09:52 622

原创 Elasticsearch 基础:数据索引流程

ES 数据索引流程ES 的数据从接收、存储到能够支持检索是一个相对比较复杂的过程,这一过程中的每一步都是为了性能、分布式支持、并行、高可用和可拓展等特点作出的设计。整体流程通过接口接收数据数据路由寻址数据索引让数据支持检索后面我们来详细了解下整个流程。通过接口接收数据ES 会通过 POST/PUT _doc、POST _bulk 等接受数据,区别只是前者一次性只会发送/接收一条数据,而后者会一次性处理多条数据。在 bulk 的处理中,ES 会自行对数据列表进行遍历,并按单条数据的方式继

2022-01-21 09:29:05 723

原创 Elastic stack 认证:可观测性认证工程师 (ECOE, elastic certified observability engineer)考点说明

可观测性认证summary可观测性认证考试主要是考察你能否用 elastic 全家桶,通过对指标、日志、APM和心跳信息等维度的数据进行采集,并在 kibana 里构建 machine learning 任务和告警。主要考点Uptime通过配置和使用 Heartbeat 对进程或服务的生存状况进行监控通过 Heartbeat 来监控服务是否可以通过 ICMP、TCP、HTTP 等方式进行访问通过 Kibana 里的 Uptime 功能来监控服务的存活和可用性Metrics通过配置

2022-01-17 18:55:46 434

原创 搜索系列:普通搜索和向量搜索之间那些不得不说的故事

普通搜索 VS 向量搜索https://wolfgarbe.medium.com/vector-search-vs-keyword-search-data-structures-and-algorithms-f29320c4fcb0向量搜索已经在黑暗中成长了有些年头了,但是随着近几年机器学习和深度学习的蓬勃发展,“特别是万物皆可 embedding“的观点越来越流行之后,向量搜索才逐渐从小众的技术走入人们的视野之中。相较于普通搜索(基于词元和倒排索引),向量搜索会成为一个革命者代替它(们)的位置,还是会

2022-01-12 16:31:35 1434 1

原创 Elasticsearch 聚合系列:adjacency matrix aggregation(邻接矩阵聚合)

定义对某个字段的值做矩阵,返回单独满足一个/同时满足两个的结果ABCAAA&BA&CBBB&CCC测试:环境准备初始化一个带 Kibana 的 ES 集群参考 环境搭建攻略本文使用的是 ES 7.16,与上文中的集群版本不一致在首页中添加示例数据 add sample data测试执行分别执行以下命令,可以得到以下结果POST kibana_sample_data_ecommerce/_sear

2022-01-10 09:52:41 1404

原创 搜索引擎简介之数据采集篇

背景随着互联网上的信息持续爆发式的增长,依靠人类的力量去收集和查找想要的信息已经越来越不可能实现,所以人们开始通过搜索引擎技术来帮助人们更快更准确的筛选和寻找自己所需要的信息。痛点互联网上的信息分布具有以下一些特点,其中任意一个都会对人类用户的信息搜寻带来很大的困扰分布的范围广,动辄几百上千万的网站中都可能存在想要的信息分布的位置零散,没有合适的索引能够帮助用户快速的找到想要的信息内容良莠不齐,大量重复、错误、谬误等信息的存在,让用户很难判断所需内容的准确性爬虫发展简史上古时期:简单爬

2022-01-07 16:50:54 437

原创 Elasticsearch 向量搜索的工程化实战

背景作为一家搜索引擎公司,我们会很倚赖 ES 帮忙处理包括文章召回,数据源划分,实体、标签管理等任务,而且都收到了不错的结果。最近我们需要对行业知识库进行建模,其中可能会涉及到实体匹配、模糊搜索、向量搜索等多种召回和算分方式,最终我们选择了通过 ES 7.X (最终选择 7.10)里的新功能,Dense vector 帮忙一起完成这部分的需求。技术选型解决方案需求支持向量搜索支持多维度筛选、过滤吞吐速率学习、使用成本运维成本使用场景设计离线数据准备在离线数据构建完成后,存入该

2021-12-18 17:16:32 1928 5

原创 Elastic Certified Engineer复习记录-复习题详解篇-聚合

EXAM OBJECTIVE: AGGREGATIONS考点:聚合GOAL: Create metrics, bucket, and pipeline aggregations考试目标:使用 metrics、bucket和 pipeline 聚合REQUIRED SETUP:初始化步骤:建议docker-compose文件:1e1k_base_cluster.ymla running Elasticsearch cluster with at least one node and a Kib

2021-12-17 15:15:21 318

原创 Elastic Certified Engineer复习记录-复习题详解篇-搜索数据(3)

EXAM OBJECTIVE: QUERIES考点:queriesGOAL: Use scroll API, search templates, script queries考试目标:使用 scroll API, search templates, script queriesREQUIRED SETUP:初始化步骤:建议docker-compose文件:1e1k_base_cluster.ymla running Elasticsearch cluster with at least on

2021-12-16 10:53:51 286

原创 Elastic Certified Engineer复习记录-复习题详解篇-搜索数据(2)

EXAM OBJECTIVE: QUERIES考点:queriesGOAL: Create search queries for terms, numbers, dates, fuzzy, and考试目标:构建terms、数字、日期、模糊匹配及符合查询语句REQUIRED SETUP:初始化步骤:建议docker-compose文件:1e1k_base_cluster.ymla running Elasticsearch cluster with at least one node and

2021-12-16 10:51:50 135

原创 Elastic Certified Engineer复习记录-复习题详解篇-搜索数据(1)

EXAM OBJECTIVE: QUERIES考点:queriesGOAL: Create search queries for analyzed text, highlight, pagination, and sort考试目标:创建搜索语句以对文档进行分析、高亮、分页和排序REQUIRED SETUP:初始化步骤:建议docker-compose文件:1e1k_base_cluster.ymla running Elasticsearch cluster with at least on

2021-12-07 12:57:34 170

原创 搜索引擎介绍系列——数据采集

搜索引擎数据采集背景随着互联网上的信息持续爆发式的增长,依靠人类的力量去收集和查找想要的信息已经越来越不可能实现,所以人们开始通过搜索引擎技术来帮助人们更快更准确的筛选和寻找自己所需要的信息。痛点互联网上的信息分布具有以下一些特点,其中任意一个都会对人类用户的信息搜寻带来很大的困扰分布的范围广,动辄几百上千万的网站中都可能存在想要的信息分布的位置零散,没有合适的索引能够帮助用户快速的找到想要的信息内容良莠不齐,大量重复、错误、谬误等信息的存在,让用户很难判断所需内容的准确性爬虫发展简史

2021-08-27 17:40:51 614

原创 JuiceFS Mac docker 环境文件读写测试

JuiceFSJuiceFS 是一款高性能 POSIX 文件系统,针对云原生环境特别优化设计,在 GNU Affero General Public License v3.0 开源协议下发布。使用 JuiceFS 存储数据,数据本身会被持久化在对象存储(例如,Amazon S3),而数据所对应的元数据可以根据场景需求被持久化在 Redis、MySQL、SQLite 等多种数据库引擎中。JuiceFS 可以简单便捷的将海量云存储直接接入已投入生产环境的大数据、机器学习、人工智能以及各种应用平台,无需修改代码

2021-08-23 09:25:50 439

原创 Elastic Certified Engineer复习记录-复习题详解篇-索引数据(2)

MAPPINGS AND TEXT ANALYSIS索引和文档的分析(分词)GOAL: Model relational data目标:规整带关系的数据模型REQUIRED SETUP:初始化步骤建议docker-compose文件:1e1k_base_cluster.ymla running Elasticsearch cluster with at least one node and a Kibana instance,运行一个至少有1个节点的ES集群,以及1个kibana节点

2021-02-23 16:05:01 319

原创 Elastic Certified Engineer复习记录-复习题详解篇-索引数据

Mapping & analysis索引和分析(数据)GOAL: set the mapping and analyzer on data index against requirements目标:按要求创建索引建议docker-compose文件:1e1k_base_cluster.yml第1题,按要求创建索引Create the index hamlet_1 with one primary shard and no replicas创建一个叫hamlet_1的具有1分片0副本

2021-02-23 16:04:23 163

原创 Elastic Certified Engineer复习记录-复习题详解篇-分词

Analysis分析(分词)GOAL: set the analyzer on data index against requirements目标:按要求创建索引建议docker-compose文件:1e1k_base_cluster.yml第1题,为数据字段指定分词器Create the index hamlet_1 with one primary shard and no replicas创建一个1分片0副本的索引hamlet_1Define a mapping for the

2021-02-23 16:03:54 179

原创 ES 引入基础鉴权

背景主搜几个集群发生过删库,继而引发大规模的数据修复重建,浪费了开发、运维同学的大量时间精力。为了能从访问上对人员的操作进行限制和记录,需要引入对ES集群进行权限校验的机制。思路开启ES本身的权限校验及相关配置接入Ldap的权限校验体系migrate所有应用中的ES链接创建方式通过公用的cerebro和kibana对ES集群进行访问实施路径ES集群在配置文件中开启包括集群SSL、安全性认证等在内的配置需要通过统一的认证中心生成证书根据需要设置不同权限的用户组为每个既存应用

2021-01-28 10:38:40 1276 2

原创 Elastic Certified Engineer复习记录-配套docker文件

1e1k_base_cluster.ymlversion: "3.6"networks: bigdata: external: truevolumes: es721data1: driver: localservices: es721Node1: image: elasticsearch:${es_version:-7.2.1} restart: always container_name: es721Node1 environment

2020-12-21 20:44:52 177

原创 Elastic Certified Engineer复习记录-复习题详解篇-索引数据(3)

Analyze & Save分析和保存(数据)GOAL: analyze and save data against requirements目标:按要求分析(分词)和保存数据建议docker-compose文件:1e1k_base_cluster.yml第1题,索引与别名Create the indices hamlet-1 and hamlet-2, each with two primary shards and no replicas创建两个索引,hamlet-1 和 ha

2020-12-17 16:30:18 159

原创 Elastic Certified Engineer复习记录-复习题详解篇-索引数据(2)

INDEX TEMPLATE索引模板GOAL: build index template and index some documents目标:按要求创建索引模板并存入数据建议docker-compose文件:1e1k_base_cluster.yml第1题,按要求创建索引模板Create the index template hamlet_template, so that the template:创建一个叫hamlet_template的索引模板,满足以下要求matches any

2020-12-17 16:27:47 107

原创 Elastic Certified Engineer复习记录-复习题详解篇-索引数据(1)

INDEXING DATA存储(索引)数据GOAL: Create, update and delete indices while satisfying a given set of requirements目标:按照题目要求创建、更新、删除索引REQUIRED SETUP:初始化步骤建议docker-compose文件:1e1k_base_cluster.ymla running Elasticsearch cluster with at least one node and a Kib

2020-12-17 16:27:17 231

原创 Elastic Certified Engineer复习记录-复习题详解篇-集群管理(2)

CLUSTER ADMINISTRATION集群管理GOAL: Backup and cross-cluster search目标:备份和跨集群搜索REQUIRED SETUP:建议docker-compose文件:2e2k_two_clusters.yml需求几步骤:Let’s create a one-node cluster and index some data in it.让我们先搞一个但节点的集群,然后存点数据进去Download the exam version of El

2020-11-17 14:39:26 415

原创 Elastic Certified Engineer复习记录-复习题详解篇-集群管理(1)

LUSTER ADMINISTRATION集群管理GOAL: Allocate the shards in a way that satisfies a given set of requirements目标,根据要求把分配放置在合适的位置REQUIRED SETUP: /建议docker-compose文件:1m2d1k_normal_cluster.yml前期准备:Download the exam version of Elasticsearch下载考试版本的ES包Deplo

2020-11-17 14:37:32 404 5

原创 Elastic Certified Engineer复习记录-复习题详解篇-集群的安装和配置(2)

INSTALLATION AND CONFIGURATION集群安装和配置GOAL: Secure a cluster and an index using Elasticsearch Security目标:用ES的安全模块保护集群和索引REQUIRED SETUP第0题,按要求创建集群a running Elasticsearch cluster with at least one node and a Kibana instance创建一个最少拥有1个ES节点1个Kibana节点的集群

2020-11-13 14:31:32 1189

原创 Elastic Certified Engineer复习记录-复习题详解篇-集群的安装和配置(1)

INSTALLATION AND CONFIGURATION集群安装和配置GOAL: Setup an Elasticsearch cluster that satisfies a given set of requirements目标: 根据给定需求配置一个ES集群。过程略,官方链接REQUIRED SETUP第0题,按要求配置集群Download the exam version of Elasticsearch下载考试版本的ES(7.2 官方页面)Deploy the clus

2020-11-10 10:10:09 209

原创 Elastic Certified Engineer复习记录-考试说明篇

Elastic 认证工程师考试官方页面官方QA页面考试环境FAQ页面:链接Which version of Elasticsearch is the exam using?Elastic Certified Engineer: 7.2Elastic Certified Analyst: 7.6Elastic Certified Observability Engineer: coming soon!考试考纲及翻译考试介绍页面1. Installation and Configura

2020-11-10 10:08:37 590

原创 ES 大规模数据迁移

背景对于生产环境中产生的数据,可能会存在于不同的ES集群,同时随着业务迭代、数据规划改变等各种原因,可能会需要对现存ES中的数据进行迁移。迁移方式分类数据的迁移从操作方面可以分为以下一些主流的方式分类方式ES版本人工干预使用门槛备注自动迁移设置ILM配合nodeattr7.x以上否低可能会存在license问题半自动迁移不同节点分片/副本移动不限是中需要规划allocate顺序手动迁移elasticsearch-dump不限是

2020-08-20 15:24:06 1265

原创 Elastic Certified Engineer复习记录-集群配置-题目篇

文章目录前言集群组建1. 集群的发现和单一节点的配置2. 地址绑定、端口监听及节点彼此发现的配置3. 防止脑裂,设置初始推荐master节点4. 节点身份设置5. 关闭系统交换区6. 配置JVM参数7.配置log参数前言对应考纲里的Installation and ConfigurationConfigure the nodes of a cluster to satisfy a give...

2020-04-25 23:26:31 308

原创 Elastic Certified Engineer复习记录-集群配置

对应考纲里的Installation and ConfigurationConfigure the nodes of a cluster to satisfy a given set of requirements到这里开始后面的内容应该只会因为ES的版本有所区别,而不会因为ES的部署环境、部署方式有所不同了ES节点在部署的时候,需要特殊配置的东西很少,而且大部分配置都可以通过调用集群设置...

2020-04-25 23:19:24 320

原创 Elastic Certified Engineer复习记录-集群搭建docker篇

文章目录环境准备下载相关的docker镜像创建一个专用的网络开始编写docker-compose 文件尝试打开xpack相关安全性配置重点总结参考文献:之前提到集群搭建的时候可以通过多种方式,考试的时候多半使用的是rpm或者tar包的方式,但是在没有足够多资源的时候(囊中羞涩又想白嫖),用docker(docker-compose/k8s)的方式搭建对我们来说是最友好的。环境准备安装包括do...

2020-03-29 17:51:11 705

原创 Elastic Certified Engineer复习记录-集群搭建

集群搭建和启动对应考纲里的Installation and ConfigurationDeploy and start an Elasticsearch cluster that satisfies a given set of requirements一般有几种方式来deploy and start 一个 ES集群,对于考试来说应该是Linux里的两种RPM包和tar包安装,毕竟包括wi...

2020-03-01 15:02:24 434

原创 直接可抄的作业 -> Spring重定向

Spring重定向ModelAndViewpublic ModelAndView someFunction() { return new ModelAndView("redirect:http//${目标地址}", \${参数});}Stringpublic String someFunction() { return "redirect:" + ${url}}带参数pub...

2019-09-11 10:18:00 254

原创 在CentOS机器上搭建Java服务

Git运行命令yum -y install gitLoaded plugins: fastestmirrorbase ...

2018-12-22 18:34:28 232

原创 CentOS 搭建Elasticsearch服务

配置Java环境检查Java版本,目前版本 6.5 的可安装版需要Java 8$ java -versionopenjdk version “1.8.0_191”OpenJDK Runtime Environment (build 1.8.0_191-b12)OpenJDK 64-Bit Server VM (build 25.191-b12, mixed mode)如果不是的...

2018-12-11 16:12:40 658

转载 Mac下安装SecureCRT并激活

ref:https://www.cnblogs.com/lianghe01/p/6618651.html原文里有一些操作有错,所以写这篇出来先下载SecureCRT和破解文件默认下载到了当前用户的”下载”目录中~/Downloads/会包含俩文件:StevendeMacBook-Pro: stevenchen$ ls -ltr ~/Downloads/secureCRT/ to...

2018-12-07 15:53:05 2286 1

原创 如何优雅的滚犊砸

如何优雅的滚犊砸很遗憾,走到这一步,说明你和公司的缘分到了,希望你在未来的道路上越来越牛逼。交接以下内容,特别是位置信息仅供参考。项目部分把当前手边的task、代码跟交接的同事传达清楚。对task的分析、整理当前的进度开发/调研的结果,demo,架构、设计思路等未来的发展路径提交所有代码到对应分支移交各种文件包括而不仅限于测试case、mock数据...

2018-11-23 14:36:00 281

原创 线上数据修复手册

前言来到这个页面的童鞋,首先恭喜你已经有足够的资格来处理线上数据了,至少已经开始需要关注对线上数据的修复了。下面我们将会一起探讨一下线上数据修复那些事儿。背景线上数据,顾名思义是公司production环境中真实的数据,不同于dev、staging、uat等其他环境的数据,这里的数据是真实用户直接可以访问的到的。由于系统升级、代码改造、不同团队之间的服务欠缺兼容性、代码bug…等这样那...

2018-11-20 10:12:06 411

原创 Ruby环境搭建不完全手册

starting out with Ruby前言:本文的目标是只要高中毕业,具有基本的计算机概念,都能轻松上手的傻瓜版教程。// 特别是我这种零基础文科小白基础概念篇我们目前使用的开发语言都是经过封装和优化的,更接近人类语言的存在,所以我们需要:程序运行环境,e.g. Java 的JDK,Ruby和Go的基础lib具备诸如代码补全、高亮、运行…的编辑器/IDE当然也有大...

2018-11-20 10:11:25 512

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除