自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (10)
  • 收藏
  • 关注

原创 多线程批量写入ES工具

业务背景: 读取本地大文件,或者读取ES的文件 进行业务处理 将结果存入ES BlukUtil工具 import com.zrt.govername.waimai.BlukTask; import org.apache.log4j.Logger; import java.util.ArrayList; import java.util.List; import java.util.Map; import java.util.concurrent.*; /** * @Classname B..

2020-05-08 18:06:16 2382 2

翻译 使用java.io.File的renameTo方法移动文件失败的问题

今天在服务器上使用file.renameTo的时候一直报错 https://my.oschina.net/u/2424727/blog/1933126 后来根据这个文章 查了下 确实文件系统类型不同: 解决方法:使用apache的commons-io包中的工具类的进行文件移动。 1.测试代码: import org.apache.commons.io.FileUtils...

2020-01-09 15:34:39 3356 3

原创 多线程查询ES返回结果

背景:现在人脸流水库有大概8W人脸数据需要提供给WEB组一个人脸检索接口(根据检索条件从ES中检索出相关数据 然后和传过来的人脸图片进行特征比对 筛选符合条件的数据 ): 方案:根据上传的图片,已经相关查询条件: String place_id = json.getString("site_code"); float start_time = json.getFloatValue("sta...

2019-11-26 09:57:17 2060

原创 读取consle的 工具类

package com.zrt.common; import com.ecwid.consul.v1.ConsulClient; import com.ecwid.consul.v1.Response; import com.ecwid.consul.v1.kv.model.GetValue; import java.io.Serializable; import java.util.Has...

2019-09-11 14:48:58 223

原创 Consul安装手册

Consul安装手册 目录 Consul安装手册.... 1 一:安装准备.... 1 二:配置consul 1 三:配置导入导出.... 1 一:安装准备 1.consul最新版的下载地址 https://releases.hashicorp.com/consul/1.5.2/consul_1.5...

2019-07-11 11:18:04 339

原创 关于静态方法和非静态方法 类锁和对象锁

划重点 static方法是类中的一个成员方法,属于整个类,即使不用创建任何对象也可以直接调用! 静态方法效率上要比实例化高,静态方法的缺点是不自动进行销毁,而实例化的则可以做销毁。 静态方法和静态变量创建后始终使用同一块内存,而使用实例的方式会创建多个内存。 在静态方法或者方法块上加的锁为 类锁 (锁类) 非静态方法为 对象锁(锁对象) 详细如下 类锁 (锁类)...

2019-05-30 16:59:12 1291

原创 通过输入流获取APK签名

背景:因为HDFS小文件太多了 导致HDFS集群压力很大 所以项目由原来的存储文件方式改成了 把文件流以二进制的方式存入一个个大的文件块 通过文件 位置信息和偏移量信息来标记文件 网上很多通过APK路径 来获取APK的签名和权限列表的 但是直接对接流的基本没有 而且封装的方法 也没有好的可以接入流的接口 通过输入流获取APK签名: 思路: 截取HDFS中APK输入流 再截取A...

2019-04-28 10:14:40 173

原创 通过输入流获取APK权限列表

背景:因为HDFS小文件太多了 导致HDFS集群压力很大 所以项目由原来的存储文件方式改成了 把文件流以二进制的方式存入一个个大的文件块 通过文件 位置信息和偏移量信息来标记文件 网上很多通过APK路径 来获取APK的签名和权限列表的 但是直接对接流的基本没有 而且封装的方法 也没有好的可以接入流的接口 通过输入流获取APK权限列表: 思路:APK权限列表存在于APK的 Andro...

2019-04-28 10:06:47 435

原创 ArrayList的last方法

最近在开发的时候看到一个问题 如下: val recordList2 =new util.ArrayList[util.HashMap[String,String]] val recordList=new util.ArrayList[Long]() recordList.add(12L) for(i <-0 until 11){ recordList.add(i.toL...

2019-04-11 14:55:26 901

翻译 rdd的特性

rdd:Resilient Distributed Dataset  弹性式分布数据集 特点如下: 1. A list of parttitions   一系列的分片:比如64M一片 类似hadoop中的split 2.A function for computing each split  每个分片上都有一个函数去迭代/执行/计算它 3.A list of dependencies ...

2019-02-27 17:48:49 197

原创 对数组里面的字符串按照长度排序,长度相同按照字典表顺序排序

最近碰到需要对字符串数组中的数据进行长度排序,长度相同按照字典顺序排序记录一下 val re_list=Array("Runoob", "Baidu", "Google").toList val result_list=re_list.sortWith((s,t)=&gt;compareStrlen(s,t))     def compareStrlen(str1:String,str2...

2019-01-16 15:00:25 2144

原创 pythonl list去子集

碰到了需要去掉list中子集的需求 记录一下 思路如下 cur_list=["ab","abc","abe","abcde"] #需要先去重 out_list=list() for cur_str1 in cur_list: contian_flag=0 for cur_str2 in cur_list: if(cur_str1 in cur_str2): ...

2019-01-02 18:03:36 2346

翻译 hive数据类型

通常在使用hive的时候更多的使用的是字符类型 hive 数据类型 1.基本数据类型  类型                       列子  tinyint                   20  smallint                20  int                        20 bigint                    20 bo...

2018-12-21 11:42:33 134

翻译 hive优化实例

1.提前过滤数据,减少中间数据依赖 比如   select ... from A join B on A.key=B.key    where A.userid &gt;10 and B.userid &lt; 10 and A.dt='20120417' and B.dt='20120417' 改成 select ... from ( select ...  from A where ...

2018-12-20 11:45:20 221

原创 针对采购品类的用户相似性分析

数据描述: 取三级品类采购数据的top的 品类 品类        被采购次数 办公文具   36677 纸类         21236 纸品/湿巾 20646 文件管理 15909 本册便签 13781 充电器/数据线 10240 打印复印耗材 9803 食用油    8368 米面杂粮  8143 以这些品类为基础 筛选了采购过这10个品类里面3个以上的用户采购品类数...

2018-11-02 17:31:25 257

翻译 python抽样总结

import random import numpy as np #简单随机抽样 data=np.loadtxt("E:/data/book/python_book/chapter3/data3.txt") # print(type(data)) data_sample=random.sample(list(data),2000)#随机抽取2000个样本 # print(data_sample[...

2018-11-01 15:17:54 2398

翻译 python数据分层抽样工具类

import pandas as pd import random as rd import numpy as np import math as ma def typeicalSampling(group, typeicalFracDict): name = group.name frac = typeicalFracDict[name] return group...

2018-11-01 10:37:46 2692

原创 订单,用户,商品关联分析记录

最近有做采购平台 订单,用户,商品关联分析 的任务 目的在于希望能产出  商品推荐商品或者 商品 推荐给用户  的数据 主要采用python的apriori  进行关联分析 样例代码如下   大概如下: from apyori import apriori import pandas as pd def ResultDFToSave(rules): # 根据Qrange3关联分析生...

2018-10-31 14:13:51 3842

转载 使用Python进行数据关联分析

https://blog.csdn.net/qq_19528953/article/details/79412245

2018-10-18 17:25:25 2393

翻译 jieba分词中的特殊字符处理

最近在做jieba分词的时候出现一个有意思的问题   往词库里面加了TD-523 这个词 然后拆分的时候 拆成了TD 523     怀疑是-影响的  然后在词库中修改为TD523  正确分出来TD523      但是如果非要拆分出来TD-523 呢 参考下面这篇文章 https://blog.csdn.net/wangpei1949/article/details/57...

2018-10-16 16:35:37 6899 1

翻译 matplotlib.pyplot绘制kmeans的聚合程度,以及轮廓系数

Kmeans2Pmml.py # -*- coding:utf-8 -*- import pandas from sklearn.model_selection import train_test_split import numpy as np # 导入numpy库 import matplotlib.pyplot as plt # 导入matplotlib库 from sklearn...

2018-10-15 14:15:46 3401

翻译 运营数据缺失值处理样例

import pandas as pd import numpy as np from sklearn.preprocessing import Imputer df=pd.DataFrame(np.random.rand(6,4),columns=["col1","col2","col3","col4"]) df.iloc[1:2,1]=np.nan df.iloc[4,3]=np.nan ...

2018-10-08 17:35:27 223

转载 数据化运营常见的数据预处理经验

        数据清洗中,主要的处理是缺失值,异常值和重复值,所谓清洗,就是对数据集进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。     数据列缺失,       1.行记录缺失,数据丢失(通常无法找回)      2.数据列值缺失 ----------------------------------------------------   这里主要说...

2018-10-08 10:48:58 282

翻译 python数据分析 常用方法总结(持续更新)

raw_data=pd.read_table("E:/data/book/python_book/chapter6/products_sales.txt",delimiter=",") 1.查看数据样例,raw_data.tail(2)) 或者 head 2.查看数据概况 print(raw_data.describe().round(1).T)  T 应该是转换行列的方法 count...

2018-09-30 10:29:05 1053 1

翻译 matplotlib.pyplot绘制决策树的准确率,召回率,ROC,特征重要性

因为训练模型需要返回模型评价指标,但是召回率和ROC 不能很好的展示返回,所以决定把相关评价指标绘制成图片 DecisionTree2Pmml.py import sys import os curPath = os.path.abspath(os.path.dirname(__file__)) rootPath = os.path.split(curPath)[0] sys.path.a...

2018-09-26 17:40:36 6690

searchface.rar

根据相关查询条件:将查询语句已设备为单位根据 device_id  为单位  将一个查询语句拆分成若干个查询语句 通过多线程异步提交任务 将查询到相关结果 和查询的人脸图片 进行特征对比 保存到结果索引里面

2019-11-25

ConfigUtil.java

读取consle配置的工具类

2019-09-11

CentOS7.4+HDP+Ambari+consul+Elasticsearch安装部署文档.rar

CentOS7.4+HDP+Ambari+consul+Elasticsearch 安装部署文档

2019-07-12

ajaxSubmit局部刷新

网上很多ajaxSubmit局部刷新的例子,很多没有附带jquery-form.js的下载链接 该例子实现文件上传ajaxSubmit提交局部刷新页面返回结果 不能选0分 所以给1分

2018-09-19

CHD升级spark2.X文档.docx

CDH升级spark2.X文档,安装步骤,详细命令,以及测试方法

2018-04-19

二维码生成

二维码图片生成,重写无边框二维码,二维码工具类。。

2017-11-27

echart2.0地图开发

echart地图资源,以及后台数据初始化,地图数组构造。

2017-11-27

解析excel另存为部分数据

解析excel 并另存为生成新的excel

2017-01-17

代码生成器

JS转义,正则校验 ,以及一些工具类的生成

2016-10-20

java面试宝典

面试的一些知识总结

2016-10-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除