自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 问答 (1)
  • 收藏
  • 关注

原创 python& ElasticSearch 分页

主要是使用游标的方法,当前使用的ElasticSearch服务版本是5.6.14,python=3.7,elasticsearch(python库)=5.5.0。下面是可执行的分页代码。#! /usr/bin/env python# -*- coding: utf-8 -*-"""@author:pengxingxiong@ruijie.com.cn@time: 2019/4/28 16...

2019-04-29 14:13:46 1385

原创 CacheBuilder在使用RemovalListeners失效的原因及解决方案

加入maven依赖<dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>27.1-jre</version></dependency>CacheBuilder在...

2019-03-19 16:52:24 2764

原创 从Spark-Streaming谈数据库性能改进

当前业务场景中Mongodb的IOPS经过压测后的最大峰值为20000/s,在系统上线后,通过mongostat工具监控发现操作数经常会飙升至30000+。由于主要的操作是Spark流处理业务的insert操作,因此本文主要从Spark-Streaming方面来讨论优化Mongodb的性能。spark-streaming 限速背景业务的主要流程是flower-&gt;kafka-&gt;sp...

2019-01-23 16:37:34 263

原创 pyspark与Mongodb

MongoDBMongoDB的基本操作pyspark MongoDB 使用经验1. 时区问题MongoDB的日期格式是 ISO-8601格式的,是一种军事时区后缀(比如UTC的‘Z’后缀),示例如下:ISODate(“2018-08-23T10:05:09.000Z”),主要原因是官方MongoDB.driver存储时间按照UTC 0时区存储,值得注意的一个是MongoDB存储的时间会比北...

2019-01-23 15:37:16 618

原创 使用python统计Mongodb

工作中常常存在对端到端流程的过程梳理或者优化,使用mongodb作为存储的时候,需要梳理出各个集合的大小以及TTL(TTL能不用就不用),以下是快速的统计方案,能够帮助将统计结果输出到csv表格中。需要pymongo和pandas依赖库。收集的信息包括数据库统计信息,集合统计信息[文档数,平均大小,集合大小,存储大小,索引],甚至可以在此基础上进行扩展。#! /usr/bin/env pytho...

2019-01-23 15:29:23 1788

原创 scalatest初探

一般情况下都是只要求在不写main的情况下可以灵活的多多个函数进行单元测试,这里可以使用org.scalatest包

2017-04-25 17:01:54 584

转载 为何与0xff进行与运算

在剖析该问题前请看如下代码public static String bytes2HexString(byte[] b) {  String ret = "";  for (int i = 0; i    String hex = Integer.toHexString(b[ i ] & 0xFF);   if (hex.length() == 1) {    hex = '

2014-11-22 10:21:32 407

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除