Elasticsearch
文章平均质量分 78
SPlus_SS
这个作者很懒,什么都没留下…
展开
-
记录一次系统计算逻辑优化
由于项目二期增加了一个维度,做了代码重构由于一期设计仓促,有一些设计的不合理的地方,比如: public_ sku_site_data(sku网站数据)表大数据推送的表将数据逻辑有许多不同的服装,GB的网站信息合在了一个表中推送过来其中服装的网站数据不到site_code,terminal,stock_code维度 故这三个字段都是" "值(源数据就是如此)下面的价格如同字段注释所示,有些数据只有GB有,有些只有服装有,后来加入的产品等级也是只有服装的数据才有但是由于GB相关的指标需要到仓库维度原创 2021-01-21 23:28:05 · 232 阅读 · 0 评论 -
ES自定义Analyzer扩展IK分词
IPS产品关键词搜索需求要对英文标题、品牌(英文)、规格属性(英文)、产品型号、描述属性、商品特征、关键搜索词等字段进行模糊匹配搜索前期由于拿不到数据也不清楚具体数据是什么样的,并且线上集群也没有安装IK分词器,于是做了两套方案一是直接使用模糊查询,二是使用分词查询后面因为开发进度问题,也一直拿不到正式数据,暂时使用第一套方案,若出现性能问题再做优化由于线上ES没有安装IK分词器,也不确定数据中会不会有中英文混合的数据,所以先自己用虚拟机搭了集群做实验,方便后期优化:因为仅使用英文分词器,或中文分词原创 2021-01-21 21:31:58 · 663 阅读 · 0 评论 -
ES TCP客户端方式自动映射mapping写入异常
最近遇到一个比较怪异的问题:一个从HDFS读取计算好的数据写入ES的任务,3E条(134.6G)左右的数据量,正常同步时间为36min左右,但是时不时出现同步时间翻了好几倍的情况首先怀疑是hadoop集群或者spark资源分配问题,(因为之前出现过集群配置问题导致读取HDFS文件慢的问题)于是在同步任务同时间做了一些读取相同文件夹下相同文件注释掉写入ES操作的测试:发现读取HDFS文件都是40s左右,排除读取文件的原因同时观察到ES集群在写入的时间,网络流量较高(左边框是1月29日慢的时候,右原创 2021-01-21 21:24:49 · 422 阅读 · 0 评论 -
ES集群节点下线,Java API TCP连接写入数据异常
ES集群周六的时候因一个节点硬盘故障(新加入的三个节点,硬盘是比较新的产品出现了BUG),运维做了下线处理按说一个6节点的ES集群,只是下线了一个节点,不应该会有特别大的影响(少了一个节点,分片少了一个写数少1/6左右的时间属于正常范围)但是出现了线上跑数任务只要跟写ES有关系的时间都翻了好几倍,整个流程慢了9H图一是正常的情况 图二是异常情况15m 34s -> 55m 0s ↑ 40min9m 31s -> 2h 3m 36s ↑原创 2021-01-21 21:19:29 · 628 阅读 · 0 评论