在知识的海洋中遨游-CSDN博客

原创 docker+nexus搭建私有maven库

一、docker+nexus 部署过程详见：https://blog.csdn.net/abelethan/article/details/105555809二、上传及下载jar包1.修改maven的setings.xml <server> <id>releases</id> <username>admin</username> <password>***</

2021-08-26 14:50:52 241

一、打包项目python环境1.安装打包类库pip install pipreqs2.打包依赖包，在项目根目录下执行，生成requirements.txt。注意看下requirements.txt是否多了一些项目不需要的类库。pipreqs ./ --encoding=utf83.在项目目录下新建site-packages 文件夹，进入site-packages目录pip download -r ../requirements.txt4.项目整体压缩，打包注意：关.

2021-07-08 16:42:05 3595

原创 java web项目部署pytorch模型方案探索

一、背景使用pytorch做模型训练，训练完成后想集成到java web项目中。同时整体项目后续也会做离线环境的前场化部署。因此，想寻求一种部署简单的方案。二、方案探索1. 使用java部署推理模型1.1 资料：onnx支持使用java api：https://github.com/microsoft/onnxruntime/tree/master/javapytorch模型转成onnx格式：https://github.com/microsoft/onnxrun...

2021-07-08 16:31:28 4508

转载 Faiss入门及应用经验记录

转载自：https://zhuanlan.zhihu.com/p/357414033导语说起相似度检索TopK的问题，相信很多算法er在实际工程中会经常遇到，对此我们一般的解决方案是暴力检索，循环遍历所有向量计算相似度然后得出TopK。但当向量数量级达到百万千万甚至上亿级别，这时候你再用暴力检索就会显得很呆 ... ...Faiss的出现就很好地解决了这个问题，笔者总结了在工程中使用Faiss的一些经验，记录下给需要的童鞋（语言为Python，因为本菜鸡不会C++）。动动小手给点个赞呗.

2021-05-18 09:56:34 1236

原创 minio 安装与使用

一、安装docker run -p 9018:9000 --name minio1 -e "MINIO_ACCESS_KEY=AKIAIOSFODNN7EXAMPLE" -e "MINIO_SECRET_KEY=wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY" -v /mnt/data:/data -v /mnt/config:/root/.minio minio/minio server /data二、使用官方api文档：htt

2021-04-22 11:50:27 645

原创通过API发送信息到微信上

一、前言个人微信目前不支持通过API的方式直接发送信息，需要通过企业微信搭桥。二、通过API向企业微信发送消息企业微信api文档：https://work.weixin.qq.com/api/doc/90000/90135/90664获取access token：https://work.weixin.qq.com/api/doc/90000/90135/91039发送应用消息：https://work.weixin.qq.com/api/doc/90000/90135/90236

2021-04-08 15:08:23 6120

原创搭建gitlab runner

一、docker 安装gitlab runner使用本地卷安装GitLab Runner docker run -d --name gitlab-runner --restart always \ -v /srv/gitlab-runner/config:/etc/gitlab-runner \ -v /var/run/docker.sock:/var/run/docker.sock \ gitlab/gitlab-runner:latest二、配置项目到

2021-04-01 11:52:31 375

原创 scrapy 爬虫问题记录

一、301 重定向原因：网站的反扒机制解决方法：补充header，模拟正常请求 custom_settings = { "ITEM_PIPELINES": { 'spider.spiders.medlive.medlive_guide_cn.MysqlPipeline': 1 }, "DEFAULT_REQUEST_HEADERS": { "Accept": "text/html,applicati

2021-03-09 16:17:26 174

原创 presto和mysql对比

一、概述官网：https://prestodb.io/国内京东官网：https://prestodb.jd.com/Presto是由Facebook开发的一个分布式SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析。它的产生是为了解决Hive的MapReduce模型太慢以及不能通过BI或Dashboards直接展现HDFS数据等问题。Presto是一个纯粹的计算引擎，它不存储数据，其通过Connector获取第三方Storage服务的数据。二、详细介绍1.架..

2021-03-01 11:04:08 2763

原创 NLP工具使用----LTP篇

一、ltp安装github 地址：https://github.com/HIT-SCIR/ltp安装命令：pip install ltp

2021-03-01 11:02:36 4372 4

原创 python--日志持久化

一、将打印到控制台的信息保存到文件中1.自定义一个Logger 实例import sysclass Logger(object): def __init__(self, filename='a.log', stream=sys.stdout): self.terminal = stream self.log = open(filename, 'w') def write(self, message): self.terminal.

2020-11-05 22:41:41 396

原创 mysql拆表方案

一、hash算法拆表使用hash算法将表主键转成hash值，除以子表的个数，得到一个余数，根据余数将数据存入不同的子表中。后期再读取数据时，可以通过hash算法，找出数据对应的子表

2020-05-22 12:14:03 922

原创 mysql sql优化

一、使用left join来代替not in在数据量较小时两者性能差不多，甚至not in 更快，但数据量越大，性能差距越明显二、先插入数据再建索引三、大数据量插入，分批insert1）单表查询时可以用 limit 拆分插入2）多表查询的时候可以考虑先把每个表需要的数据插入到结果表中，再删除不符合要求的数据...

2020-05-14 16:55:37 196 1

原创 presto sql优化

1.sql聚合函数presto属于查询引擎，每次在执行sql时，算子是在presto中的，因此每次都需要先从数据源查数据再执行。

2020-03-10 18:31:47 440

原创 mysql 问题总结

一、Application was streaming results when the connection failed. Consider raising value of 'net_write_timeout' on the server.net_write_timeout 参数说明：向客户端写入数据的最大时限解决方法：try catch 出现该问题再重跑一次...

2020-03-10 15:24:21 7536

原创 mysql 使用binlog2sql 查询binlog

gitlab：https://github.com/danfengcao/binlog2sql一、安装shell> git clone https://github.com/danfengcao/binlog2sql.git && cd binlog2sqlshell> pip install -r requirements.txt二、使用方法sh...

2020-03-07 18:17:54 2475

原创 python小知识点整理

1.Python 字典初始化dict()和{}的区别性能方面，{}性能更好比较两者的字节码：通过{}初始化，只需要通过一次常量指令即可完成，通过dict()，需要执行CALL_FUNCTION指令。2.defaultdict方法在python中访问不存在的键会抛出KeyError异常使用dict.setdefault()设置默认值...

2019-06-12 10:52:02 296

原创 Windows上配置Python+Spark开发环境

1.软件准备：下载资源合集：https://download.csdn.net/download/qq_33283652/11060712https://download.csdn.net/download/qq_33283652/11060746spark2.2.0https://archive.apache.org/dist/spark/ hadoop2.7.7https...

2019-03-25 14:21:54 631

原创 docker使用教程

一、简介Docker的应用场景Web 应用的自动化打包和发布。自动化测试和持续集成、发布。在服务型环境中部署和调整数据库或其他的后台应用。从头编译或者扩展现有的OpenShift或Cloud Foundry平台来搭建自己的PaaS环境。Docker 的优点 1、简化程序： Docker 让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的 L...

2019-03-22 15:22:14 289

原创图形数据库---neo4j

官网：https://neo4j.com/一、简介Neo4j是一个高性能的NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络...

2019-03-19 11:22:52 840

原创各大搜索引擎比较

一、前期准备从生活需求和技术需求两方面对各大搜索引擎的搜索结果进行比较。搜索引擎测试对象：百度 Google Bing 360搜索测试问题：床单泛黄的清洗方法 docker与Vmware的区别咖啡杯的烧纸用途（测试输入错误时的智能匹配，实际问题：咖啡杯的勺子用途）二、测试过程1.床单泛黄的清洗方法 2.docker与Vmware的区别...

2019-02-27 15:04:16 7473

原创 bash学习记录

一、基本用法1.脚本文件开头为#!/bin/bash并设置权限为可执行：chmod +x file2.给变量赋值及读取变量#给变量赋值name = "Sam"#读取变量echo ${name}或echo $name3.把命令的输出，赋值给一个变量cat readme.txtret=$(cat readme.txt)或ret=`cat readme...

2019-02-20 16:41:05 476 1

原创正则表达式学习记录

注意：把必须匹配的情况考虑周全并写出一个匹配结果符合预期的正则表达式很容易，但把不需要匹配的情况也考虑周全并确保它们都被排除在匹配结果之外往往要困难得多。一、常用字符含义1.常用的字符含义字符描述表达式可能匹配结果普通字符匹配自身 abc abc . 匹配任意除换...

2019-02-20 12:04:09 239

原创大数据实战练习（三、卡扣监控）

一、项目需求统计正常的卡扣个数，异常的卡扣个数，正常的摄像头个数，异常的摄像头个数，异常的摄像头详细信息。正常卡扣个数：monitor_camera_info 基本关系表中卡扣与摄像头的关系与在monitor_flow_action 监控数据表中，卡扣与摄像头的关系完全对应上异常的卡扣个数：monitor_camera_info 基本关系表中卡扣与摄像头的关系，在监控的数据表中一条都没...

2019-01-18 14:20:26 601

原创大数据实战练习（二、模拟数据）

一、集群启动1.启动zookeeper2.启动hdfs3.启动standalone./sbin/start-all.sh4.启动hive./hive --service metastore &二、编写代码1.模拟生成数据public class Data2File { public static String MONITOR_FLOW_ACTIO...

2019-01-16 09:28:27 1083

原创大数据实战练习（一、项目概览）

一、大数据处理框架二、项目背景 https://download.csdn.net/download/qq_33283652/10915786根据对车流量的监控进行数据清洗及分析三、项目代码https://download.csdn.net/download/qq_33283652/10915990https://download.csdn.net/download/q...

2019-01-14 15:09:32 2251 1

原创 Storm学习记录（九、事物）

目的：保证消息有且只被执行一次一、分类1.强顺序流（强有序）引入事务（transaction）的概念，每个transaction（即每个tuple）关联一个transaction id。Transaction id从1开始，每个tuple会按照顺序+1。在处理tuple时，将处理成功的tuple结果以及transaction id同时写入数据库中进行存储。缺点：一次只能处理...

2019-01-14 13:23:05 181

原创 Storm学习记录（八、项目演练）

一、项目背景模拟分析中国移动某个基站的小区掉话率二、代码实现 https://download.csdn.net/download/qq_33283652/10915043https://download.csdn.net/download/qq_33283652/10915117三、项目启动1.启动zookeeper2.启动kafka集群./bin/kafk...

2019-01-14 10:47:53 167

原创 Storm学习记录（七、flume+storm+kafka整合）

一、集群启动1.启动zookeeper2.启动kafka./bin/kafka-server-start.sh -daemon ./config/server.properties3.搭建flume集群3.1上传并解压flume jar包3.2修改conf下的flume-env.shexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-o...

2019-01-13 21:59:00 495

原创 Storm学习记录（六、分布式远程过程调用）

一、简介DRPC 是通过一个 DRPC 服务端(DRPC server)来实现分布式 RPC 功能的。DRPC Server 负责接收 RPC 请求，并将该请求发送到 Storm中运行的 Topology，等待接收 Topology 发送的处理结果，并将该结果返回给发送请求的客户端。（其实，从客户端的角度来说，DPRC 与普通的 RPC 调用并没有什么区别。）DRPC设计目的：为了...

2019-01-13 19:35:30 328

原创 Storm学习记录（五、容错机制）

1.集群各节点挂掉的影响 nimbus挂掉对集群影响较小。当某个supervisor 挂掉后，zookeeper会向nimbus返回信息，当发现nimbus也挂掉后，会要求nimbus重启。当有新任务上传时，也会要求nimbus重启。其余的时候nimbus是闲置状态。supervisor挂掉后，zookeeper会在通知nimbus，nimbus会将分配到该supervis...

2019-01-13 15:06:48 296

原创 Storm学习记录（四、并发机制和通信机制）

一、并发机制Worker – 进程：一个Topology拓扑会包含一个或多个Worker（每个Worker进程只能从属于一个特定的Topology）这些Worker进程会并行跑在集群中不同的服务器上，即一个Topology拓扑其实是由并行运行在Storm集群中多台服务器上的进程所组成Executor – 线程：Executor是由Worker进程中生成的一个线程每个Worker进程...

2019-01-12 22:39:50 1008 1

原创 Storm学习记录（三、Storm集群搭建）

一、单机搭建1.上传并解压jar包2.在storm目录下创建logs目录，以保存程序运行时的信息mkdir logs3.在bin目录下执行命令，启动zookeeper./storm dev-zookeeper >> ../logs/dev-zookeeper.out 2>&1 &4.启动nimbus./storm nimbus &...

2019-01-12 22:34:17 193

原创 Storm学习记录（二、分发策略与架构）

一、分发策略Shuffle Grouping：随机分组，随机派发stream里面的tuple，保证每个bolt task接收到的tuple数目大致相同。轮询，平均分配 Fields Grouping：按字段分组，比如，按"user-id"这个字段来分组，那么具有同样"user-id"的 tuple 会被分到相同的Bolt里的一个task，而不同的"user-id"则可能会被分配到不同的t...

2019-01-12 17:10:56 351

原创 Storm学习记录（一、简介）

一、简介Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流，像Hadoop批量处理大数据一样，Storm可以实时处理数据。Storm简单，可以使用任何编程语言。Storm有如下特点：编程简单：开发人员只需要关注应用逻辑，而且跟Hadoop类似，Storm提供的编程原语也很简单高性能，低延迟：可以应用于广告搜索引擎这种要求对广告主的操作...

2019-01-12 14:25:41 227

原创 spark学习记录（十四、kafka）

一、简介kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式，先进先出（FIFO）保证顺序，自己不丢数据，默认每隔7天清理数据。消息列队常见场景：系统之间解耦合、峰值压力缓冲、异步通信。Kafka架构是由producer（消息生产者）、consumer（消息消费者）、borker(kafka集群的server，负责处理消息读、写请求，存储消息，在kafka cluster...

2019-01-10 16:47:05 321

原创 spark学习记录（十三、SparkStreaming）

一、SparkStreaming简介SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window 。最终，处理后的数据可以存放在文件系统，...

2019-01-09 20:47:41 204

原创 spark学习记录（十二、Spark UDF&UDAF&开窗函数）

一、UDF&UDAF public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("local"); conf.setAppName("udf"); ...

2019-01-08 20:54:07 269

原创 spark学习记录（十一、Spark on Hive配置）

添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifactId> <version>2.4.0</vers...

2019-01-07 20:57:26 520

原创 spark学习记录（十、SparkSQL）

一、介绍SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念，是Spark能够高效的处理大数据的各种场景的基础。能够在Scala中写SQL语句。支持简单的SQL语法检查，能够在Scala中写Hive语句访问Hive数据，并将结果取回作为RDD使用。DataFrame也是一个分布式数据容器。与RDD类似，然而DataFrame更像传统数据库的二维表格，除了数据以外，还掌...

2019-01-07 17:26:14 315