数据库
文章平均质量分 74
烫烫烫口
这个作者很懒,什么都没留下…
展开
-
CDH6 rpm方式安装kerberos记录
cdh6整合kerberos的记录原创 2022-03-22 11:43:49 · 3545 阅读 · 0 评论 -
springcloud2.x整合mybatis3+shardingsphere4.1.0&4.1.1 主从分离+服务治理
懒得按以前格式写了,纯粘代码几点注意:1、冲突问题,官网的配置未解决curator问题;(P.S. 最新版5.0.0α也没有处理好spring cloud 2.x+的问题,会造成no value bound,详见issue#8299https://github.com/apache/shardingsphere/issues/82992、配置问题,官网的配置文档还停留在4.0.0的配置,看源码,配置的读取代码为@Generated public void setOrchestratio原创 2021-04-13 15:50:55 · 361 阅读 · 0 评论 -
记一次迷信batch insert导致的性能急剧下降问题
背景系统用于实现数据传输采集,在不允许库对库传输,甚至跨库(mysql->oracle)传输的情况下,使用自开发采集器进行数据传输。mybatis插入数据库我们都知道有一种通过foreach来实现batch插入的方式,之前在mysql和oracle上都做过单表插入测试,其中无事务的情况下,8G内存4核PC,每次10000条内插入,mysql上性能差距不大。在8G内存,8核CPU情况下,每次3000条数据,事务插入和batch插入(Oracle batch插入语法需要更换为union all),性能原创 2021-01-18 17:34:26 · 1100 阅读 · 0 评论 -
kettle6.1转换内正确的并发设置姿势
引子网上很多教程没搞懂“改变开始复制的数量”这个意思,将数量设置在输入端,导致不仅没有进行多线程并发,反而变成复制读入多分数据导致开销增大,而且还造成了数据重复写入,这样还敢说性能提升,真是有鬼了。实际效果单线程效果所谓的“多线程”,不仅没有提升速度,反而给我往文本文件里写了50W条数据,说这个多线程的,不会阅读什么叫“开始复制”这四个字吗,都说了复制了!!真是蠢爆了。正确姿...原创 2019-12-30 16:14:53 · 2303 阅读 · 5 评论 -
三张图辨析所谓select *性能劣于select XXX
该场景主要适用于仅查询索引字段的情况,否则其余情况一概同等而论。但是大部分应用场景我们需要将几乎所有字段读取出来,所以select *和select xxx差别不大。1、展示索引字段和非索引字段,全表扫描2、展示使用索引字段的情况,使用了主键索引3、select *情况,全表扫描...原创 2019-12-06 18:09:55 · 360 阅读 · 0 评论 -
sparksql运算调优纪事(一)——hive小文件处理
业务目的全量离线运算统计,结果写入oracle问题执行时task数量过多hive动态分区小文件过多测试环境5运算节点,内存分别为12G,不断发生内存溢出问题逐步调优1、执行时task数量过多,总数达到了108000个,OMG,每个任务都是内存溢出,因为是用sparksql读hive表,所以spark的spark.default.parallelism强制指定task数并没有用,只...原创 2019-09-19 16:49:30 · 1308 阅读 · 2 评论 -
kettle6.1从http接口读取数据并解析json以及xml
业务需求1、从数据库中读取表内容作为入参;2、根据入参读取http接口并获取返回数据;3、解析返回的json并提取其中的xml字段;4、解析该xml字段;5、入库。使用组件...原创 2019-03-29 14:17:46 · 10861 阅读 · 0 评论 -
利用正则表达式爬取HTML页面内容
闲来使用正则表达式做了一个HTML页面的数据爬虫,主要是根据页面规则去匹配相应字段内容,记录一下。利用HttpGet获取页面内容,使用pattern获取匹配内容CloseableHttpClient client = HttpClientBuilder.create().build(); long t = new Date().getTime(); for (i...原创 2018-12-18 18:19:03 · 3491 阅读 · 0 评论 -
利用AbstractRoutingDataSource+AOP实现多数据源切换
实现基于springmvc+mybatis框架动态切换不同的数据源。基础框架springmvc4+mybatis3。主要利用了spring aop以及spring的AbstractRoutingDataSource类。原创 2018-04-27 15:59:28 · 751 阅读 · 0 评论 -
kettle6.0 hadoop hbase交互记录
摘要:在kettle6.0中连接读写hadoop和hbase与之前版本方法不同,故记录一下使用方法。环境准备: windows kettle6.0 jdk1.7 hadoop 2.6.5 hbase 1.2.6 配置首先配置hadoop的连接插件 打开 工具->hadoop distribute原生hadoop选择CDH5.4 接下来新建一个hadoop连接配置原创 2017-12-12 19:37:48 · 1203 阅读 · 0 评论 -
IntelliJ IDEA构建基于maven的spark+hbase工程(scala语言)
利用IDEA来编写基于maven的scala程序,主要功能用来支持从hbase中拉取数据供spark进行mapreduce运算。原创 2017-11-08 16:03:34 · 5019 阅读 · 0 评论 -
kettle6.0基础功能实战
业务背景因为公司业务,需要进行国内-海外部分业务数据的同步,早期本来方案选定直接做MySQL主从,但是考虑到同步过程中不需要同步所有数据库表,且单表中也需要根据业务情况,筛选出海外的数据,因此MYSQL直接做主从复制不符合预期。最终选型了kettle。Kettle是Pentaho的一个组件,主要用于数据库间的数据迁移,我们使用的是6.1版本,目前网上对该版本的介绍还比较少,所以很多功能还是靠自己摸索原创 2017-08-18 10:45:30 · 10722 阅读 · 0 评论