自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 资源 (11)
  • 收藏
  • 关注

原创 搭建xorbits容器集群,大规模数据去重利器

机器免密pdsh机器安装容器启动去重任务执行。

2024-02-28 15:40:57 392

原创 在docekr中运行openwrt镜像

地址:https://archive.openwrt.org/releases/23.05.1/targets/x86/64/

2024-01-04 00:14:54 936

原创 docker container 设置自动重启,自动执行

start_server.sh 脚本内容是你要执行的内容。

2023-03-31 11:24:04 629 1

原创 deepspeed 多机多卡RuntimeError: Ninja is required to load C++ extensions

问题原贴:https://github.com/microsoft/deepspeed/issues/1687deepspeed 子进程的找不到ninja这个包,这包是用来加载tocrh的一些c++插件 cpu_adam或者 fuse adam,这个一般会引起下游的错误 No mudule named fuse adam 或者 No mudule named cpu_adam排查 ninja是否安装如果没有安装就如果有安装还是报错就继续往下看找到torch的源码报错位置(报错信息会写),文件名是cp

2023-03-30 11:24:22 1464

原创 DeepSpeed在docker容器内实现多机多卡

这里需要创建overlay网络是多台宿主机的容器可以通过网络连接选定一台机器为主节点master命令执行完之后,会有其他节点加入该网络的命令提示,在其他节点上输入该命令后就加入了该网络。

2023-03-30 11:23:27 4037 5

原创 Dockerfile构建带有ssh的Ubuntu镜像

【代码】Dockerfile构建带有ssh的Ubuntu镜像。

2023-03-22 12:14:15 475

原创 Unity开发环境配置

unity,vscode开发环境配置

2023-02-09 12:29:31 3320

原创 条件随机场CRF的理解

条件随机场CRF与Attention机制结合,又发展成了Transformer-CRF、BERT-BiLSTM-CRF等模型,使中文分词、命名实体识别、词性标注效果又有显著提高。条件随机场(Conditional Random Field,CRF)是自然语言处理的基础模型,广泛应用于中文分词、命名实体识别、词性标注等标注场景。条件随机场CRF与深度学习结合,产生了BiLSTM-CRF、BiLSTM-CNN-CRF等模型,在中文分词、命名实体识别、词性标注也取得不错的效果。

2022-08-19 16:02:45 1058

原创 生产镜像制作(小而快的镜像制作)

困境:平台上有几十个服务组件,每个个组件都是依托docker环境运行的,对外部署时,需要打包所有镜像实行部署,由于镜像多且镜像大,对部署来说拷贝转移数据的难度增加,为了降低部署的成本加快部署速度,我们决定对生产环境下的镜像进行重新制作,以达到镜像体积尽可能小的目标。以下会列出一个项目生产镜像制作的步骤以及docker镜像制作的一些推荐的操作。1.生产镜像的制作1.1镜像制作的步骤概览1. 去官网找runtime镜像(runtime镜像只包含必须的包比devel镜像体积小) https://hub.

2022-05-18 14:04:26 1295

原创 Dockerfile的编写和命令

1.巨人的肩膀该博文详细讲了Dockerfile的结构和指令意义,并且附带了两个示例:https://blog.csdn.net/weixin_53446039/article/details/1174451842.具体示例DockerfleFROM reg.hrlyit.com/ai/contract-review:1.0ENV LANG C.UTF-8ENV DEBIAN_FRONTEND noninteractiveLABEL maintainer="new_ai@xxx.com"

2021-09-06 21:30:35 273

原创 python项目生成环境配置文件requirements.txt

1.为什么需要requirements.txt但我们将打包好的python项目给别人使用时,由于python环境不一致,那么使用的人需要逐个检查import 导入的包,逐个安装。这样不方便,为了是他人使用方便我们可以在项目中导出自己使用的包requirements.txt requirements.txt常见的格式为:requests>=1.2.0 Flask==0.10.1别人使用时只需要执行pip install -r requirements.txt2.仅仅导出项目需要的包这

2021-09-06 20:46:43 1172

原创 linux服务器中shell启动python项目,包引入错误解决方案

需要在shell 环境中 PYTHONPATH 加入一个项目根目录变量BASE_PATH=/你的工程根目录export PYTHONPATH=$PYTHONPATH:$BASE_PATH/

2021-09-03 12:02:50 504

原创 docker将容器保存为镜像文件并转移到其他机器

假设我们有机器A,B。我们需要把机器A上运行的容器转移到B上,可以按照以下方式机器A的操作#提交容器为本地镜像docker commit -m="yangdongquan_ner_fast_api" -a="ydq" yangdongquan_nlppytorch_env yangdongquan_fast_api_server:1.0#将本地镜像存储成tar文件docker save -o /data/nlppytorch_env.tar yangdongquan_nlppytorch_e.

2021-07-26 10:03:28 1004

原创 docker中开启ssh服务和jupyter服务

开启ssh服务保证自己的docker暴露22端口,需要在新建docker时增加参数,命令如下所示: docker run -p 5a:22 --runtime=nvidia -it --name xiechong_ssh_test -v /home/training:/data xxxxx /bin/bash进入自己的docker执行命令:apt-get update(更新docker的apt命令)执行命令:apt-get install ssh(安装ssh)执行命令:vim /etc/

2021-06-09 17:14:37 891

原创 docker 重新进入运行的容器中

适用场景当容器是以某种服务的模式启动的,例如:mysql服务只对外开放端口,但是我们需要进入容器内进行某些操作。或者是其他非交互模式的容器进入命令docker exec -it c426ac26c86c /bin/bash

2021-03-29 17:57:02 3534

原创 docker指定使用某几张显卡/某几个GPU

查看本机显卡信息#查看显卡信息,红色框为卡编号nvidia-smi启动容器指定显卡#使用第3,4张卡--gpus='"device=3,4"'示例:docker run -ti --gpus='"device=3,4"' \-v /data/common_data/ASR:/workspace/data \--tmpfs /tmp \--entrypoint=/bin/bash \--net=host \--ipc=host \seannaren/deepspeech.pyt

2021-03-25 11:42:10 13501

原创 李宏毅 Deep Learning for Human Language Processing 课程要点思维导图整理

思维导图xmind导图格式下载链接:https://pan.baidu.com/s/1sNiTbYVrzV6OBBn0_mQQrA提取码:zkbd

2021-03-18 09:41:47 252

原创 pytorch报错:RuntimeError: CUDA error: device-side assert triggered究极解决方案

原因模型的数据处理出了问题,一般是类似与数组访问越界的问题1.例如分类的标签是数据处理的时候是1-10,但是torch在计算交叉熵是默认是0-92.embedding模块的词表长度问题,比如embedding中词表总长度是100,但是具体数据的token_id超过100,也会报错。3.其他越界问题错误定位torch在使用cuda计算是报错的位置的代码不一定是错的,所以这点一定要注意(推测cuda并行计算,不能清楚的定位到具体错误位置)这时候要注意一点,把所有数据,模型不要放在cuda上计算,将

2020-12-22 10:27:56 18189 13

原创 分类类别不均衡focal loss

原文参考:https://www.cnblogs.com/king-lps/p/9497836.html对于alpha设置成0.25的理解该类别不均衡,负样本多alpha设置成0.25有点降低正样本影响的意思但是也就是说负样本经过gamma的调成已经成为简单样本,其loss可能被调低了alpha设置成0.25是一种再平衡的策略。(这点有点炼丹的意思)...

2020-12-14 16:09:42 679

原创 ELMO,BERT,GPT的原理和用法

李宏毅-ELMO, BERT, GPT讲解: 李宏毅-ELMO, BERT, GPT讲解ELMOELMO的训练ELMO的使用BERTBERT的训练BERT的使用GPTBERT的训练BERT的使用

2020-10-14 16:15:31 1496

转载 文本匹配算法详解

原文知乎: 传统文本匹配算法详解(附代码). 文本匹配是NLU中的一个核心问题,虽然基于深度学习的文本匹配算法大行其道,但传统的文本匹配算法在项目中也是必要的。本文详解了传统的文本匹配算法Jaccard、Levenshtein、Simhash、Bm25、VSM的原理及其代码分享给大家,若有不足之处,请大家指出。1. 概述 在实际工程项目,不论是基于交互的还是基于表示的文本匹配,往往都会结合传统的字面匹配算法来综合评估两段文本的匹配程度。至此,“文本匹配”系列文章更新完结,后期会针对性解读

2020-09-29 16:14:42 3325 1

原创 深度学习 Pycharm中使用docker服务器

1.必要条件1.Pycharm pro(专业版),pycharm CE(社区版没有这个功能)2. 安装好docekr服务的docker服务器(可以是远程服务器,可以是本地)3. docker 服务器上有准备好环境的容器2.服务器上开启docker远程服务# 修改docker服务的配置文件(文件名可能不一样,但是类似的只有一个文件)vim /lib/systemd/system/docker.service# 找到“ExecStart”,在该行后追加: ExecStart=/usr/bin/d

2020-09-27 17:29:28 1330 1

原创 ubuntu18.04下搭建docker深度学习环境

1.安装显卡驱动#卸载原先驱动sudo apt-get remove --purge nvidia*#查看当前显卡合适的驱动ubuntu-drivers devices#安裝驱动,注意改成你自己合适的驱动sudo apt-get install nvidia-driver-450-server# 重启reboot #查看显卡工作情况nvidia-smi 2.docekr安裝#docker安装curl -fsSL https://download.docker.com

2020-09-27 13:16:28 753 2

原创 window下使用docker构建jupyter数据开发环境

1.WIN下docker安装链接: docker官网下载.推荐搭建去官方网站现在exe安装包按住过程中一直点下一步,使用默认配置2.换国内源默认情况下docker使用的是国外的docker hub的地址,下载镜像时速度较慢。需要更换国内源地址。打开setting编辑源地址{ "registry-mirrors": [ "https://docker.mirrors.ustc.edu.cn" ], "insecure-registries": [], "debu

2020-09-21 16:41:35 854

原创 python多进程传值获取返回值极简教程

实现代码import multiprocessing as mpimport timeimport randomimport subprocessimport logginglogger = mp.log_to_stderr(logging.WARN)def popen_wrapper(i): logger.warn('echo "hi"') return idef log_result(retval): results.append(retval)if __

2020-06-24 10:17:00 595

原创 python中字符串转换成时间对象(官方表)

1 Python官方表2具体用法#python 原生import timetime.strptime('180401012358','%y%m%d%H%M%S')#输出time.struct_time(tm_year=2018, tm_mon=4, tm_mday=1, tm_hour=1, tm_min=23, tm_sec=58, tm_wday=6, tm_yday=91, tm_isdst=-1)#在pandas中import pandas as pdpd.to_dateti

2020-06-23 14:17:30 884

原创 关于偏差和方差

偏差方差部分总结http://www.ai-start.com/dl2017/html/lesson2-week1.html

2020-06-10 19:53:08 229

转载 hierarchical softmax 分层softmax原理理解

https://zhuanlan.zhihu.com/p/56139075

2020-05-27 17:50:04 704

原创 深入理解RNN梯度消失

1.关于理解RNN梯度消失内容转载于:知乎-RNN梯度消失和爆炸的原因.2.梯度消失,权值就无法更新了吗?No.梯度消失不意味着没有梯度我们先看任意时刻 t 对权重 wxw_xwx​求导公式:请注意红圈这是一个求和符号,即使 t 是一个很大的数,但是第公式第t 项基本不受影响,仍然是一个比较大的数值。所以即使层数深,梯度也不小,网络参数仍然能够更新。再联想RNN参数共享机制,即使层数再深网络权重仍然能够更新。3.那为什么我们在训练是重要要避免梯度消失这个问题题主目

2020-05-18 16:31:01 1716 3

原创 概率论与数理统计(数理统计部分)

数理统计部分P60 总体和样本1.总体2.样本3.简单随机抽样P61 统计量视频中的例子将了为什么不是1/n而是1/n-1P62 卡方分布1.卡方分布的定义,密度函数,函数图像,性质2.上a分位数P63 t分布和F分布1.t分布的定义,密度函数,函数图像和a(阿尔法)分位数极限区趋于正态分布2.F分布,密度函数,函数图像和a(阿尔法)分位...

2020-01-07 10:33:43 4399

转载 线性回归损失函数与最大似然估计,岭回归,拉索回归的联系

本文转自知乎最大似然估计和最小二乘法怎么理解? - bsdelf的回答 - 知乎https://www.zhihu.com/question/20447622/answer/25186207

2020-01-03 13:56:38 696

原创 概率论与数理统计

本博客用于记录概率论与数理统计学习笔记。p1 样本空间和随机事件随机试验在同样条件下重复进行知道所有试验可能出现的结果在实验室不知道这次会出现哪个结果样本空间(集合)随机试验所有可能的结果。随机事件样本空间的子集。几个特殊的随机事件:必然事件:一定会发生的事假。(比如把整个样本空间看做一个随机事件)不可能事件:空集基本事件:只包含一个样本点例如:公交站现在有多少个...

2019-10-14 21:33:55 2742

原创 李宏毅深度学习视频摘要

视频地址李宏毅深度学习(nlp)2017视频摘要P1讲了RNN,LSTM ,GRU网络构造P2讲了卷积的原理,pooling的原理,已经不太常规的poolling方法。另外提到一种特殊的Rnn结构stackRNNP3讲了深度学习反向传播的知识,其中提到链式法则,fc网络的bp方法和RNN的bp方法P4讲语言模型n-gram : P(a|b)直接统计语料库的概率nn-bas...

2019-09-10 09:09:57 5286

原创 windows 逆向技术必备知识(书籍)

《加密与解密》是一本逆向必读书籍,以Windows平台为目标讨论。本书以软件逆向为切入点,讲述了软件安全领域相关的基础知识和技能,可以说是安全人士必读书籍之一了。《加密与解密》(第四版)国庆后将出版上市,许多朋友非常关注这本书,在这里简单谈谈阅读这本书之前,需要哪些基础知识。很多人都想学习加解密,这东西刚入门时会让人沉迷进去,可以饭不吃、觉不睡。出现这种现像,也许是解密满足了人们的猎奇心理吧。但...

2019-09-04 11:46:46 7364

原创 NLP中embeding干了什么事?怎么干的?

基本常识在做深度学习时,各种神经网络只能处理数字,不能处理文字,所以在输入前只能将文字转换成数字输入网络。那么embedding干的事情就是把文字转换成向量,且转换后的向量尽可能保留原文字的语意信息。1.word2index顾名思义就是简单的把词或字转换成相应的索引。(这种方式及其不推荐)2.onehot将字独热编码,这样稍好于第一种方法,但是缺陷也很明显,首先如果NLP任务重词量较大那...

2019-07-29 17:57:27 643

转载 常见的几种 Normalization 算法

https://zhuanlan.zhihu.com/p/69659844

2019-06-27 17:41:20 991

原创 隐马尔可夫模型讲解

马尔科夫简介马尔科夫三要素初始状态概率状态转移概率输出观测概率马尔科夫三个基本问题评估问题解码问题学习问题隐马尔科夫简单示例https://www.zhihu.com/question/20962240/answer/33438846...

2019-05-15 16:57:23 1052

原创 聚类性能度量指标

1.外部指标将聚类结果与某个“参考模型”进行比较称为外部指标。“参考模型”通常是值有专家经验推出的的模型,或者数据本身有标签。将样本两两配对,然后确定4个值:a为在参考模型中属于同一个类且在聚类结果中属于同一个簇的样本对的数量。b为在参考模型中属于同一个类且在聚类结果中不在同一个簇的样本对的数量。c为在参考模型中不在同一个类且在聚类结果中属于同一个簇的样本对的数量。d为在参考模型中不...

2019-05-06 20:52:30 2753

原创 tensorflow gpu 安装填坑记录

环境python 3.6windows10 64操作系统专业版1050TI显卡软件包准备CUDA包cuda_10.0.130_411.31_win10.exe(链接:https://pan.baidu.com/s/1perhy_z4QbwDQPgam01Z1A 提取码:f7ux自己去官方下载一定要注意版本,最新版本可能不适用)显卡驱动包417.71-desktop-w...

2019-04-20 00:16:47 240

原创 蚂蚁金服-算法工程师-机器学习-面经

一面

2019-04-09 16:58:41 2937 1

pandas官方原版教程离线html版

pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language.

2019-04-30

人脸聚类算法讲解(含原论文)

Abstract—Clustering face images according to their latent identity has two important applications: (i) grouping a collection of face images when no external labels are associated with images, and (ii) indexing for efficient large scale face retrieval. The clustering problem is composed of two key parts: representation and similarity metric for face images, and choice of the partition algorithm. We first propose a representation based on ResNet, which has been shown to perform very well in image classification problems. Given this representation, we design a clustering algorithm, Conditional Pairwise Clustering (ConPaC), which directly estimates the adjacency matrix only based on the similarities between face images. This allows a dynamic selection of number of clusters and retains pairwise similarities between faces. ConPaC formulates the clustering problem as a Conditional Random Field (CRF) model and uses Loopy Belief Propagation to find an approximate solution for maximizing the posterior probability of the adjacency matrix. Experimental results on two benchmark face datasets (LFW and IJB-B) show that ConPaC outperforms well known clustering algorithms such as k-means, spectral clustering and approximate Rank-order. Additionally, our algorithm can naturally incorporate pairwise constraints to work in a semi-supervised way that leads to improved clustering performance. We also propose an k-NN variant of ConPaC, which has a linear time complexity given a k-NN graph, suitable for large datasets. Index Terms—face clustering, face representation, Conditional Random Fields, pairwise constraints, semi-supervised clustering.

2019-04-24

flume 1.8基本概念+官方文档

fluem由Cloudera公司开源 分布式、可靠、和高可用的海量日志采集、聚合和传输的日志收集系统 数据源可定制、可扩展 数据存储系统可定制、可扩展

2018-10-23

集成学习方法汇总讲稿

集成学习(Ensemble Learning) 是指将多个不同的基本模型(Base Model) 组合成一个 Ensemble Model 的方法。它可以同时降低最终模型的 Bias 和 Variance(证明可以参考这篇论文,我最近在研究类似的理论,可能之后会写新文章详述),从而在提高分数的同时又降低 Overfitting 的风险。在现在的 Kaggle 比赛中不用 Ensemble 就能拿到奖金几乎是不可能的

2018-10-16

基于用户历史位置的用户相似度度量

定位获取技术发展(GPS,GSM网络等)使人们可以方便地记录他们用时空数据访问的位置历史。收集大量与个人的轨迹有关地理信息,也给我们从这些轨迹中发现有价值的知识带来了我们机遇和挑战。在本文中,我们目的是基于他们的轨迹挖掘相似性用户之间。这样的用户相似性对于个人,社区和企业通过帮助他们有效地检索相关性高的信息。我们提出了一种基于层次图的相似度度量(HGSM,hierarchical-graph based similarity measurement)框架地理信息系统一致地建模每个个体并对个体的轨迹进行了有效的相似性度量。在这个框架中,我们同时考虑了人的运动行为的序列性质和地理空间的层次属性。我们评估这个框架使用GPS数据收集65名志愿者在6个月的时间。因此,HGSM优于相关的相似性度量,如余弦相似性和皮尔森相似性度量。

2018-09-11

神经网络模型python模板

NeuralNetworkModel 开发环境 python36 tensorflow1.x 模块介绍 产生数据 create_data.py 计算前向传播 forward.py 训练过程 backward.py <-----------------程序入口 学习到的函数 test.py

2018-08-19

高级任务管理器(包含32位和64位)

Process Explorer 是一款增强型的任务管理器,你可以使用它方便地管理你的 程序进程,能强行关闭任何程序(包括系统级别的不允许随便终止的”顽固”进程)。除此之外,它还详尽地显示计算机信息:CPU、内存使用情况,DLL、句柄信息,很酷的曲线图。

2018-06-12

oracle数据库自动备份脚本带说明

backup.bat 为备份脚本请勿删除,需放在备份所在的文件夹 文件名的为备份的日期+时间 7天前的备份数据会被删除 恢复前删除用户及所有表 再新建用户导入数据即可

2018-06-12

网页上调用PC上程序的示例

本代码已打开微信为例 前置条件 PC已安装微信 使用流程 1.双击执行注册微信服务(确保本机的微信安装时使用的是默认目录,如果不是,编辑reg文件修改微信exe所在路径即可) 2.打开试用网页测试。(从原理上讲适用于所有PC上的浏览器) 博文参考: https://blog.csdn.net/longzhoufeng/article/details/78778708 关键词:url protocol

2018-06-12

程序员离职申请书范文

程序员离职申请书范文。类容如下 敬爱的各位领导: 自17年6月入职以来,我一直都很享受这份工作,感谢各位领导对我的信任、栽培及包容,也感谢各位同事给予的帮助和关心。在过去的时间里,利用公司给予的良好学习时间,学习了一些新的东西来充实了自己,并增加自己的一些知识和实践经验。我对于公司的照顾表示真心的感谢!当然,我也自认为自己在这期间的工作中做出了自己的最大努力。

2018-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除