自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

SPlus_SS的博客

原创记录一次系统计算逻辑优化

由于项目二期增加了一个维度,做了代码重构由于一期设计仓促,有一些设计的不合理的地方,比如: public_ sku_site_data（sku网站数据）表大数据推送的表将数据逻辑有许多不同的服装,GB的网站信息合在了一个表中推送过来其中服装的网站数据不到site_code,terminal,stock_code维度故这三个字段都是" "值(源数据就是如此)下面的价格如同字段注释所示,有些数据只有GB有,有些只有服装有,后来加入的产品等级也是只有服装的数据才有但是由于GB相关的指标需要到仓库维度

2021-01-21 23:28:05 278

原创 ES自定义Analyzer扩展IK分词

IPS产品关键词搜索需求要对英文标题、品牌（英文）、规格属性（英文）、产品型号、描述属性、商品特征、关键搜索词等字段进行模糊匹配搜索前期由于拿不到数据也不清楚具体数据是什么样的,并且线上集群也没有安装IK分词器,于是做了两套方案一是直接使用模糊查询,二是使用分词查询后面因为开发进度问题,也一直拿不到正式数据,暂时使用第一套方案,若出现性能问题再做优化由于线上ES没有安装IK分词器,也不确定数据中会不会有中英文混合的数据,所以先自己用虚拟机搭了集群做实验,方便后期优化:因为仅使用英文分词器,或中文分词

2021-01-21 21:31:58 718

原创 ES TCP客户端方式自动映射mapping写入异常

最近遇到一个比较怪异的问题:一个从HDFS读取计算好的数据写入ES的任务,3E条(134.6G)左右的数据量,正常同步时间为36min左右,但是时不时出现同步时间翻了好几倍的情况首先怀疑是hadoop集群或者spark资源分配问题,(因为之前出现过集群配置问题导致读取HDFS文件慢的问题)于是在同步任务同时间做了一些读取相同文件夹下相同文件注释掉写入ES操作的测试:发现读取HDFS文件都是40s左右,排除读取文件的原因同时观察到ES集群在写入的时间,网络流量较高(左边框是1月29日慢的时候,右

2021-01-21 21:24:49 454

原创 ES集群节点下线，Java API TCP连接写入数据异常

ES集群周六的时候因一个节点硬盘故障（新加入的三个节点，硬盘是比较新的产品出现了BUG），运维做了下线处理按说一个6节点的ES集群，只是下线了一个节点，不应该会有特别大的影响（少了一个节点，分片少了一个写数少1/6左右的时间属于正常范围）但是出现了线上跑数任务只要跟写ES有关系的时间都翻了好几倍，整个流程慢了9H图一是正常的情况图二是异常情况15m 34s -> 55m 0s ↑ 40min9m 31s -> 2h 3m 36s ↑

2021-01-21 21:19:29 679

原创使用Spark跨集群同步Hive数据

本文适用有入门spark基础的同学，一些最基础知识不再赘述通过阅读本文即可掌握使用Spark跨集群同步Hive数据的技巧！众所周知，业界比较成熟的同步数据工具是Sqoop，它是连接关系型数据库和Hadoop的桥梁比较常用的场景是从MySQL等RDB同步到Hive、Hbase或者将Hive、Hbase的数据导出到MySQL但是在天池技术选型时选用了用Spark来从大数据集群同步数据到大禹集群下面来比较一下这两种方式：①Sqoop使用配置化，Spark需要代码开发学习成本上使用Spark稍微高一些

2021-01-21 19:43:01 1444

原创 Spark抽取MySQL分表优化

从MySQL抽取Hive表XXX ,MySQL中有128张分表原抽数逻辑SQL为SELECTCONCAT(good_sn, “#”, wh_code) AS goodsId,MAX(ship_price/exchange_rate) AS shipPrice,MAX(ship_fee/exchange_rate) AS shipFee,price_type AS shipTypepipeline_codeFROMgoods_price_factor_s_${order}WHERE sit

2021-01-21 19:38:05 463

原创 Spark抽取多分表数据性能

使用spark.read.jdbc读取表后注册成临时表,再将表UNION ALL起来可不形成宽依赖,将多张分表合并成总表的job放在一个stage中从而可以根据任务启用资源的调整(主要是core数)将从MySQL抽数的任务并行处理下图为任务执行的的DAG图,可以看到128个分表虽然在代码中是循环读,但是实际上分成了1个stage中的128个task并行执行下面为验证:由于测试环境资源有限,分别进行了如下三种资源调整测试效率(也只是观察趋势,具体生产环境配置还需要测试调整)num-executor

2021-01-21 19:30:10 461

原创 SPark关于缓存&坑

SPark关于缓存&坑SPark基本概念Spark执行流程Spark运行架构的特点：几个名词解释功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowc...

2021-01-21 19:21:18 1030 2

原创事务隔离级别与脏读、不可重复读、幻读

开始在学习这几个概念的时候,发现不仅是身边,而且网上有很多人都把这些概念搞混淆了,特别是幻读.又由于这些都是一些概念性的东西,所以我就去查了一下官方文档:详见: MySQL 事务隔离级别相关官方文档翻译为了测试我们先准备一个表并插入几条数据: drop table if exists t; create table t( id int primary key auto_increment

2018-01-26 21:38:47 375

原创 Eureka服务发现与注册

1.准备微服务2.编写Eureka Server3.实现Eureka Server高可用部署

2018-01-24 22:23:42 2225 1

翻译 MySQL 事务隔离级别相关官方文档翻译

来自MySQL官方文档: MySQL 5.7 Reference Manual :: MySQL Glossary MySQL 5.7 Reference Manual :: MySQL Glossary1.isolation level One of the foundations of database processing. Isolation is the I in the ac

2018-01-22 11:24:22 647

原创 Spring Boot 扫描不到Controller

按照网上的例子做了一个小demo,但是写完一直报404 因为跟着第一次用了H2数据库,也不知道是不是数据库数据有问题还是怎么样排查了许久后来在controller里面打了桩发现根本没进方法也就是说controller没起作用,查了半天也没找到为什么(但是顺带加深了对几个注解的认识哈哈)*就顺便写一点关于注解的吧 @SpringBootApplication: 相当于@C

2018-01-22 01:05:10 1518

原创创建Spring Boot项目

创建Boot项目的几种方法:1.Spring官网下载项目后导入2.使用Spring Boot CLI生成项目3.使用STS(Spring Tool Suite)创建

2018-01-07 23:51:07 326

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄8年

12
原创

2
点赞

9
收藏

3
粉丝

关注

私信

热门文章

分类专栏

Spark 5篇
Elasticsearch 4篇
Bug集 1篇
MySQL 2篇
SpringCloud 1篇

最新评论

SPark关于缓存&坑
wow随风: 老哥，能请教一个问题嘛？单Job的情况下cache重用或者说迭代的RDD有效果吗？Cache不是lazy的嘛，难道只有多个action时使用才有效果？
SPark关于缓存&坑
不正经的kimol君: 忍不住就是一个赞，写得很棒，欢迎回赞哦~
Eureka服务发现与注册
lily-0622: 谢谢分享

提示

确定要删除当前文章？

取消删除