- 博客(25)
- 资源 (10)
- 收藏
- 关注
原创 多线程批量写入ES工具
业务背景: 读取本地大文件,或者读取ES的文件 进行业务处理 将结果存入ES BlukUtil工具 import com.zrt.govername.waimai.BlukTask; import org.apache.log4j.Logger; import java.util.ArrayList; import java.util.List; import java.util.Map; import java.util.concurrent.*; /** * @Classname B..
2020-05-08 18:06:16 2382 2
翻译 使用java.io.File的renameTo方法移动文件失败的问题
今天在服务器上使用file.renameTo的时候一直报错 https://my.oschina.net/u/2424727/blog/1933126 后来根据这个文章 查了下 确实文件系统类型不同: 解决方法:使用apache的commons-io包中的工具类的进行文件移动。 1.测试代码: import org.apache.commons.io.FileUtils...
2020-01-09 15:34:39 3356 3
原创 多线程查询ES返回结果
背景:现在人脸流水库有大概8W人脸数据需要提供给WEB组一个人脸检索接口(根据检索条件从ES中检索出相关数据 然后和传过来的人脸图片进行特征比对 筛选符合条件的数据 ): 方案:根据上传的图片,已经相关查询条件: String place_id = json.getString("site_code"); float start_time = json.getFloatValue("sta...
2019-11-26 09:57:17 2060
原创 读取consle的 工具类
package com.zrt.common; import com.ecwid.consul.v1.ConsulClient; import com.ecwid.consul.v1.Response; import com.ecwid.consul.v1.kv.model.GetValue; import java.io.Serializable; import java.util.Has...
2019-09-11 14:48:58 223
原创 Consul安装手册
Consul安装手册 目录 Consul安装手册.... 1 一:安装准备.... 1 二:配置consul 1 三:配置导入导出.... 1 一:安装准备 1.consul最新版的下载地址 https://releases.hashicorp.com/consul/1.5.2/consul_1.5...
2019-07-11 11:18:04 339
原创 关于静态方法和非静态方法 类锁和对象锁
划重点 static方法是类中的一个成员方法,属于整个类,即使不用创建任何对象也可以直接调用! 静态方法效率上要比实例化高,静态方法的缺点是不自动进行销毁,而实例化的则可以做销毁。 静态方法和静态变量创建后始终使用同一块内存,而使用实例的方式会创建多个内存。 在静态方法或者方法块上加的锁为 类锁 (锁类) 非静态方法为 对象锁(锁对象) 详细如下 类锁 (锁类)...
2019-05-30 16:59:12 1291
原创 通过输入流获取APK签名
背景:因为HDFS小文件太多了 导致HDFS集群压力很大 所以项目由原来的存储文件方式改成了 把文件流以二进制的方式存入一个个大的文件块 通过文件 位置信息和偏移量信息来标记文件 网上很多通过APK路径 来获取APK的签名和权限列表的 但是直接对接流的基本没有 而且封装的方法 也没有好的可以接入流的接口 通过输入流获取APK签名: 思路: 截取HDFS中APK输入流 再截取A...
2019-04-28 10:14:40 173
原创 通过输入流获取APK权限列表
背景:因为HDFS小文件太多了 导致HDFS集群压力很大 所以项目由原来的存储文件方式改成了 把文件流以二进制的方式存入一个个大的文件块 通过文件 位置信息和偏移量信息来标记文件 网上很多通过APK路径 来获取APK的签名和权限列表的 但是直接对接流的基本没有 而且封装的方法 也没有好的可以接入流的接口 通过输入流获取APK权限列表: 思路:APK权限列表存在于APK的 Andro...
2019-04-28 10:06:47 435
原创 ArrayList的last方法
最近在开发的时候看到一个问题 如下: val recordList2 =new util.ArrayList[util.HashMap[String,String]] val recordList=new util.ArrayList[Long]() recordList.add(12L) for(i <-0 until 11){ recordList.add(i.toL...
2019-04-11 14:55:26 901
翻译 rdd的特性
rdd:Resilient Distributed Dataset 弹性式分布数据集 特点如下: 1. A list of parttitions 一系列的分片:比如64M一片 类似hadoop中的split 2.A function for computing each split 每个分片上都有一个函数去迭代/执行/计算它 3.A list of dependencies ...
2019-02-27 17:48:49 197
原创 对数组里面的字符串按照长度排序,长度相同按照字典表顺序排序
最近碰到需要对字符串数组中的数据进行长度排序,长度相同按照字典顺序排序记录一下 val re_list=Array("Runoob", "Baidu", "Google").toList val result_list=re_list.sortWith((s,t)=>compareStrlen(s,t)) def compareStrlen(str1:String,str2...
2019-01-16 15:00:25 2144
原创 pythonl list去子集
碰到了需要去掉list中子集的需求 记录一下 思路如下 cur_list=["ab","abc","abe","abcde"] #需要先去重 out_list=list() for cur_str1 in cur_list: contian_flag=0 for cur_str2 in cur_list: if(cur_str1 in cur_str2): ...
2019-01-02 18:03:36 2346
翻译 hive数据类型
通常在使用hive的时候更多的使用的是字符类型 hive 数据类型 1.基本数据类型 类型 列子 tinyint 20 smallint 20 int 20 bigint 20 bo...
2018-12-21 11:42:33 134
翻译 hive优化实例
1.提前过滤数据,减少中间数据依赖 比如 select ... from A join B on A.key=B.key where A.userid >10 and B.userid < 10 and A.dt='20120417' and B.dt='20120417' 改成 select ... from ( select ... from A where ...
2018-12-20 11:45:20 221
原创 针对采购品类的用户相似性分析
数据描述: 取三级品类采购数据的top的 品类 品类 被采购次数 办公文具 36677 纸类 21236 纸品/湿巾 20646 文件管理 15909 本册便签 13781 充电器/数据线 10240 打印复印耗材 9803 食用油 8368 米面杂粮 8143 以这些品类为基础 筛选了采购过这10个品类里面3个以上的用户采购品类数...
2018-11-02 17:31:25 257
翻译 python抽样总结
import random import numpy as np #简单随机抽样 data=np.loadtxt("E:/data/book/python_book/chapter3/data3.txt") # print(type(data)) data_sample=random.sample(list(data),2000)#随机抽取2000个样本 # print(data_sample[...
2018-11-01 15:17:54 2398
翻译 python数据分层抽样工具类
import pandas as pd import random as rd import numpy as np import math as ma def typeicalSampling(group, typeicalFracDict): name = group.name frac = typeicalFracDict[name] return group...
2018-11-01 10:37:46 2692
原创 订单,用户,商品关联分析记录
最近有做采购平台 订单,用户,商品关联分析 的任务 目的在于希望能产出 商品推荐商品或者 商品 推荐给用户 的数据 主要采用python的apriori 进行关联分析 样例代码如下 大概如下: from apyori import apriori import pandas as pd def ResultDFToSave(rules): # 根据Qrange3关联分析生...
2018-10-31 14:13:51 3842
转载 使用Python进行数据关联分析
https://blog.csdn.net/qq_19528953/article/details/79412245
2018-10-18 17:25:25 2393
翻译 jieba分词中的特殊字符处理
最近在做jieba分词的时候出现一个有意思的问题 往词库里面加了TD-523 这个词 然后拆分的时候 拆成了TD 523 怀疑是-影响的 然后在词库中修改为TD523 正确分出来TD523 但是如果非要拆分出来TD-523 呢 参考下面这篇文章 https://blog.csdn.net/wangpei1949/article/details/57...
2018-10-16 16:35:37 6899 1
翻译 matplotlib.pyplot绘制kmeans的聚合程度,以及轮廓系数
Kmeans2Pmml.py # -*- coding:utf-8 -*- import pandas from sklearn.model_selection import train_test_split import numpy as np # 导入numpy库 import matplotlib.pyplot as plt # 导入matplotlib库 from sklearn...
2018-10-15 14:15:46 3401
翻译 运营数据缺失值处理样例
import pandas as pd import numpy as np from sklearn.preprocessing import Imputer df=pd.DataFrame(np.random.rand(6,4),columns=["col1","col2","col3","col4"]) df.iloc[1:2,1]=np.nan df.iloc[4,3]=np.nan ...
2018-10-08 17:35:27 223
转载 数据化运营常见的数据预处理经验
数据清洗中,主要的处理是缺失值,异常值和重复值,所谓清洗,就是对数据集进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。 数据列缺失, 1.行记录缺失,数据丢失(通常无法找回) 2.数据列值缺失 ---------------------------------------------------- 这里主要说...
2018-10-08 10:48:58 282
翻译 python数据分析 常用方法总结(持续更新)
raw_data=pd.read_table("E:/data/book/python_book/chapter6/products_sales.txt",delimiter=",") 1.查看数据样例,raw_data.tail(2)) 或者 head 2.查看数据概况 print(raw_data.describe().round(1).T) T 应该是转换行列的方法 count...
2018-09-30 10:29:05 1053 1
翻译 matplotlib.pyplot绘制决策树的准确率,召回率,ROC,特征重要性
因为训练模型需要返回模型评价指标,但是召回率和ROC 不能很好的展示返回,所以决定把相关评价指标绘制成图片 DecisionTree2Pmml.py import sys import os curPath = os.path.abspath(os.path.dirname(__file__)) rootPath = os.path.split(curPath)[0] sys.path.a...
2018-09-26 17:40:36 6690
searchface.rar
2019-11-25
CentOS7.4+HDP+Ambari+consul+Elasticsearch安装部署文档.rar
2019-07-12
ajaxSubmit局部刷新
2018-09-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人