北京下雨天-CSDN博客

原创 azure redis 连接代码util

微软云 java连接azure redis

2022-11-18 16:31:47 246

原创二叉树排序-基础算法

链表是增删快，数组是查找快，但是二叉树算是取一个折中

2022-11-15 17:24:05 214

原创归并排序-基础算法

基础算法-归并排序，用于大数据排序mapreduce 中排序文件，mysql sort 排序

2022-11-15 17:16:36 68

原创 activemq的stomp 协议发数据，客户端端口服务端还是established

activemq 的stomp 发数据，断开客户端，服务端处于established 的情况

2022-07-14 15:42:14 219

原创 java8 reduce

List<PageData> all=Lists.newArrayList(); PageData pd=new PageData(); pd.put("a",1); pd.put("b",2); pd.put("c",3); all.add(pd); PageData pd1=new PageData(); pd1.put("a",2); pd1.put("b",3);..

2022-04-25 18:46:51 3490

** 一致性hash 就是普通hash 的升级版本**从普通hash 说起请求里面的属性有一个随机数，根据这个随机数hash 到不同的服务器。在分布式中，当一个服务器挂掉，其他服务器的缓存也要从新计算。因为对象的存放的计算基数变了。将服务器的数量变成2^32 .将设备数量和存放的hash 公式分开。避免设备增加和减少影响其他设备的缓存数据。那怎么结合的呢。服务器和请求都映射到这个2^32上。然后根据一定的规则关联请求和设备。规则是：请求落点顺时针找到的服务器但是这样也会出现热点问题，好多请

2022-03-15 12:27:11 110 1

原创 python 调用bat

import osimport socketimport subprocessimport win32apifrom utils.Logger import Loggerdef start(): cmd="C:\\Users\\wysengine\\Desktop\\采集软件启动脚本\\xxx.bat" win32api.ShellExecute(0, 'open', cmd, '', '', 1) # 前台打开start()print(1)...

2021-09-27 14:26:36 6437

原创 kafka 生产者消费者

package kafka;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clients.consumer.KafkaConsumer;import org.apache.kafka.common.serialization.StringDeserializer;imp

2021-05-31 13:48:50 826

原创阻塞，非阻塞，同步，异步的区别

阻塞和非阻塞式反应调用某个接口后调用者他自己的一个状态是干等着返回信息，还是干别的。我们写接口的时候加个锁等待，就是同步。又返回了，插入数据数据库，然后我们在派一个线程去获取这个状态。这种是非阻塞的。同步和异步区别同步就是一直问，有没有数据返回。对应一个while 循环异步就是等着数据返回告诉他。一个socket。...

2021-05-20 19:01:04 69

原创 JSON转化为CSV

public static void main(String[] args) throws IOException { List<String> fs= FileUtil.readLocalFile("G://exportx (2).json",2487); File file = new File( "G://" + "aa.txt" ); BufferedWriter bw = null; bw = new Buffer..

2021-05-20 16:49:36 1024 1

原创 mongodb 导出命令

mongodb 导出命令 /usr/mongodb/bin/mongoexport -d iothub -c rtData202105 -o /exportx.csv -q '{ "$and": [{ "id": "40000301" }, { "time": { "$gte": "2021-05-17 00:00:00" } }, { "time": { "$lt": "2021-05-20 00:00:00" } }, { "1":

2021-05-20 14:36:18 225

原创 hashmap 流程图

2021-03-09 12:57:03 297 1

原创 java 对象的创建过程

1 指针碰撞2 空闲列表

2021-03-09 12:34:43 60

原创 Java class 文件结构

java 文件架构是基于字节流的，用unicode 进行编码的。ClassFile { u4 magic; u2 minor_version; u2 major_version; u2 constant_pool_count; cp_info constant_pool[constant_pool_count-1]; u2 access_flags; u2 this_class; u2 super_class; u2 interfaces_count; u2 interfaces[in

2021-03-09 12:22:01 88 1

原创 java 内存区域与内存溢出异常（一）

1：程序计数器：线程私有，较小的内存空间，当前线程所执行的字节码的行号指示器，唯一不会发生错误的内存区域2：虚拟机栈：线程私有，生命周期和线程相同，为虚拟机执行Java方法服务，指的是Java内存模型，可发生StackOverflowError（栈溢出错误）和OutOFMemoryError============待后续详细学习（其中每一个栈帧中分配的内存大小基本上在类结构确定下来就是已知的）3：本地方法栈：线程私有，为虚拟机使用到的native方法服务，可发生StackOverflowErro

2021-03-09 11:22:04 53

原创 nginx 配置

1 server ssl 配置 server { listen 9080 ssl; server_name ip; ssl_certificate /etc/letsencrypt/live/cn-0001/cert.pem; ssl_certificate_key /etc/letsencrypt/live/cn-0001/privkey.pem; ssl_session_timeout 5m;

2021-03-01 20:40:50 75

原创 docker 搭建 cdh 分布式集群

参考地址：1 新建镜像（主节点）docker run --privileged=true --name w1 -h w1 -p 8020:8020 -p 7180:7180 -p 21050:21050 -p 50071:50070 -p 50076:50075 -p 50011:50010 -p 50021:50020 -p 8889:8888 -p 10022:22 -p 8901:8900 9781:9780 8089:8088 ky:master /usr/sbin/

2021-03-01 20:27:36 1022

原创 pyspark在分布式环境中引入虚拟环境

背景：当我们的代码逻辑依赖于一个虚拟环境，怎么将这个环境在一个分布式集群中使用呢？1 我们有一个django项目，里面有venv的虚拟环境我们需要打包这个环境：zip -r ai-alg.zip ai-alg2 程序执行命令主要看椭圆的部分参数说明：–conf spark.pyspark.python=./local_venv/local_venv/bin/python #executor集群端的pyspark配置，即任务执行的机器–conf spark.pyspark.driver.

2021-03-01 20:20:18 350

原创 pyspark 引入自定义的egg模块

1 提交的命令/usr/hdp/2.6.1.0-129/spark2/bin/spark-submit --master yarn-client --executor-memory 29G –num-executors 10 –executor-cores 100 –py-files /data/data1/leopard/bdist/leopard-0.1.dev0-py2.7.egg –conf spark.default.parallelism=200 /data/data1/leo

2021-03-01 19:56:18 383 2

原创 ubuntu18.04 下安装 vnpy2.1.9

vnpy 2.1.9 + ubuntu 18.04 安装成功

2021-03-01 18:04:47 304

原创采样（上采样，下采样，比例采样，条数采样）

f (type == 0): axis = int(get_value(param, 'axis', 0)) replace = get_value(param, 'replace', False) line_or_frac = get_value(param, 'line_or_frac', "") ...

2020-03-03 14:19:44 1214

原创 lstm初步（二维数据）

# num_words = 30000# maxlen = 200(x_train, y_train), (x_test, y_test) = keras.datasets.imdb.load_data(num_words=num_words)# print(x_train.shape, ' ', y_train.shape)# print(x_test.shape, ' ', y_tes...

2020-02-28 17:59:44 2768

原创 pyspark随机森林重要性

from pyspark.ml import Pipelinefrom pyspark.ml.classification import RandomForestClassifierfrom pyspark.ml.linalg import Vectorsfrom pyspark.sql import SparkSessionimport pandas as pdfrom pyspar...

2020-02-22 23:21:52 493

原创 pyspark 随机森林重要性

废话不多说,直接上代码!```pythonfrom pyspark.ml import Pipelinefrom pyspark.ml.classification import RandomForestClassifierfrom pyspark.ml.linalg import Vectorsfrom pyspark.sql import SparkSessionimport p...

2020-02-22 22:54:38 414

原创 pip 指定源 Mac和windows

Linux或Mac中，创建~/.pip/pip.conf，文件内容为[global]trusted-host=mirrors.aliyun.comindex-url=http://mirrors.aliyun.com/pypi/simple/在Windows中，创建~/pip/pip.ini，内容同上符号~代表用户的主目录...

2018-12-30 13:37:41 211

原创 spark

研究了几天pyspark–py-file 不能引入自定义模块–jars 不能引入jar （在用saveAshadoopfile 自定义输出到不同目录）

2018-12-29 22:15:10 78

weixin_42237388的博客