![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
Matrix-yang
try again
展开
-
docker指定使用某几张显卡/某几个GPU
查看本机显卡信息#查看显卡信息,红色框为卡编号nvidia-smi启动容器指定显卡#使用第3,4张卡--gpus='"device=3,4"'示例:docker run -ti --gpus='"device=3,4"' \-v /data/common_data/ASR:/workspace/data \--tmpfs /tmp \--entrypoint=/bin/bash \--net=host \--ipc=host \seannaren/deepspeech.pyt原创 2021-03-25 11:42:10 · 12089 阅读 · 0 评论 -
李宏毅 Deep Learning for Human Language Processing 课程要点思维导图整理
思维导图xmind导图格式下载链接:https://pan.baidu.com/s/1sNiTbYVrzV6OBBn0_mQQrA提取码:zkbd原创 2021-03-18 09:41:47 · 234 阅读 · 0 评论 -
pytorch报错:RuntimeError: CUDA error: device-side assert triggered究极解决方案
原因模型的数据处理出了问题,一般是类似与数组访问越界的问题1.例如分类的标签是数据处理的时候是1-10,但是torch在计算交叉熵是默认是0-92.embedding模块的词表长度问题,比如embedding中词表总长度是100,但是具体数据的token_id超过100,也会报错。3.其他越界问题错误定位torch在使用cuda计算是报错的位置的代码不一定是错的,所以这点一定要注意(推测cuda并行计算,不能清楚的定位到具体错误位置)这时候要注意一点,把所有数据,模型不要放在cuda上计算,将原创 2020-12-22 10:27:56 · 18035 阅读 · 13 评论 -
分类类别不均衡focal loss
原文参考:https://www.cnblogs.com/king-lps/p/9497836.html对于alpha设置成0.25的理解该类别不均衡,负样本多alpha设置成0.25有点降低正样本影响的意思但是也就是说负样本经过gamma的调成已经成为简单样本,其loss可能被调低了alpha设置成0.25是一种再平衡的策略。(这点有点炼丹的意思)...原创 2020-12-14 16:09:42 · 634 阅读 · 0 评论 -
深度学习 Pycharm中使用docker服务器
1.必要条件1.Pycharm pro(专业版),pycharm CE(社区版没有这个功能)2. 安装好docekr服务的docker服务器(可以是远程服务器,可以是本地)3. docker 服务器上有准备好环境的容器2.服务器上开启docker远程服务# 修改docker服务的配置文件(文件名可能不一样,但是类似的只有一个文件)vim /lib/systemd/system/docker.service# 找到“ExecStart”,在该行后追加: ExecStart=/usr/bin/d原创 2020-09-27 17:29:28 · 1249 阅读 · 1 评论 -
ubuntu18.04下搭建docker深度学习环境
1.安装显卡驱动#卸载原先驱动sudo apt-get remove --purge nvidia*#查看当前显卡合适的驱动ubuntu-drivers devices#安裝驱动,注意改成你自己合适的驱动sudo apt-get install nvidia-driver-450-server# 重启reboot #查看显卡工作情况nvidia-smi 2.docekr安裝#docker安装curl -fsSL https://download.docker.com原创 2020-09-27 13:16:28 · 701 阅读 · 2 评论 -
关于偏差和方差
偏差方差部分总结http://www.ai-start.com/dl2017/html/lesson2-week1.html原创 2020-06-10 19:53:08 · 217 阅读 · 0 评论 -
hierarchical softmax 分层softmax原理理解
https://zhuanlan.zhihu.com/p/56139075转载 2020-05-27 17:50:04 · 667 阅读 · 0 评论 -
深入理解RNN梯度消失
1.关于理解RNN梯度消失内容转载于:知乎-RNN梯度消失和爆炸的原因.2.梯度消失,权值就无法更新了吗?No.梯度消失不意味着没有梯度我们先看任意时刻 t 对权重 wxw_xwx求导公式:请注意红圈这是一个求和符号,即使 t 是一个很大的数,但是第公式第t 项基本不受影响,仍然是一个比较大的数值。所以即使层数深,梯度也不小,网络参数仍然能够更新。再联想RNN参数共享机制,即使层数再深网络权重仍然能够更新。3.那为什么我们在训练是重要要避免梯度消失这个问题题主目原创 2020-05-18 16:31:01 · 1690 阅读 · 3 评论 -
线性回归损失函数与最大似然估计,岭回归,拉索回归的联系
本文转自知乎最大似然估计和最小二乘法怎么理解? - bsdelf的回答 - 知乎https://www.zhihu.com/question/20447622/answer/25186207转载 2020-01-03 13:56:38 · 680 阅读 · 0 评论 -
线性回归的五个基本假设
回归分析的五个基本假设 最近读到一篇很棒的文章,介绍了回归分析的五个基本假设,假设失效的影响及检验方法,现总结归纳如下。为己乃梳理巩固,亦期能有助于各位。综述回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型。以便通过观察特定变量(自变量),来预测研究者感兴趣的变量(因变量)。总的...转载 2019-03-28 19:39:04 · 41184 阅读 · 1 评论 -
机器学习中评价方法
经验误差和泛化误差经验误差=训练误差泛化误差=正式使用的误差 ≈\approx≈测试误差过拟合:经验误差小,泛化误差大欠拟合:经验误差大错误率和精度精度:acc=1m∑i=1mI(f(xi)=yi))acc=\frac1m\sum_{i=1}^m\mathbb{I}(f(x_i)=y_i))acc=m1i=1∑mI(f(xi)=yi))错误率=1-精度查准率,查全率,...原创 2019-04-09 16:21:23 · 839 阅读 · 0 评论 -
样本划分办法
留出法即按照一定比例留出测试样本,一般来说测试集与训练集互斥交叉验证法k折交叉验证将样本划分为K等份,每次留一份作为测试,训练K个学习器,取测试结果的平均值k折K次在 k折交叉验证的基础上重复K次(每次都是随机划分)。相当于进行的k*k次训练和测试自助法通常用于样本规模较小时从样本中随机有放回取N个样本作为训练集,最后将从未取到过的样本做测试集。N趋于无穷时,训练集约占总样...原创 2019-04-09 16:30:33 · 3292 阅读 · 0 评论 -
蚂蚁金服-算法工程师-机器学习-面经
一面原创 2019-04-09 16:58:41 · 2883 阅读 · 1 评论 -
tensorflow gpu 安装填坑记录
环境python 3.6windows10 64操作系统专业版1050TI显卡软件包准备CUDA包cuda_10.0.130_411.31_win10.exe(链接:https://pan.baidu.com/s/1perhy_z4QbwDQPgam01Z1A 提取码:f7ux自己去官方下载一定要注意版本,最新版本可能不适用)显卡驱动包417.71-desktop-w...原创 2019-04-20 00:16:47 · 219 阅读 · 0 评论 -
聚类性能度量指标
1.外部指标将聚类结果与某个“参考模型”进行比较称为外部指标。“参考模型”通常是值有专家经验推出的的模型,或者数据本身有标签。将样本两两配对,然后确定4个值:a为在参考模型中属于同一个类且在聚类结果中属于同一个簇的样本对的数量。b为在参考模型中属于同一个类且在聚类结果中不在同一个簇的样本对的数量。c为在参考模型中不在同一个类且在聚类结果中属于同一个簇的样本对的数量。d为在参考模型中不...原创 2019-05-06 20:52:30 · 2702 阅读 · 0 评论 -
隐马尔可夫模型讲解
马尔科夫简介马尔科夫三要素初始状态概率状态转移概率输出观测概率马尔科夫三个基本问题评估问题解码问题学习问题隐马尔科夫简单示例https://www.zhihu.com/question/20962240/answer/33438846...原创 2019-05-15 16:57:23 · 1033 阅读 · 0 评论 -
常见的几种 Normalization 算法
https://zhuanlan.zhihu.com/p/69659844转载 2019-06-27 17:41:20 · 952 阅读 · 0 评论 -
NLP中embeding干了什么事?怎么干的?
基本常识在做深度学习时,各种神经网络只能处理数字,不能处理文字,所以在输入前只能将文字转换成数字输入网络。那么embedding干的事情就是把文字转换成向量,且转换后的向量尽可能保留原文字的语意信息。1.word2index顾名思义就是简单的把词或字转换成相应的索引。(这种方式及其不推荐)2.onehot将字独热编码,这样稍好于第一种方法,但是缺陷也很明显,首先如果NLP任务重词量较大那...原创 2019-07-29 17:57:27 · 622 阅读 · 0 评论 -
李宏毅深度学习视频摘要
视频地址李宏毅深度学习(nlp)2017视频摘要P1讲了RNN,LSTM ,GRU网络构造P2讲了卷积的原理,pooling的原理,已经不太常规的poolling方法。另外提到一种特殊的Rnn结构stackRNNP3讲了深度学习反向传播的知识,其中提到链式法则,fc网络的bp方法和RNN的bp方法P4讲语言模型n-gram : P(a|b)直接统计语料库的概率nn-bas...原创 2019-09-10 09:09:57 · 5263 阅读 · 0 评论 -
MAP(Mean Average Precision)平均精度均值。
MAP可以由它的三个部分来理解:P,AP,MAP先说P(Precision)精度,正确率。在信息检索领域用的比较多,和正确率一块出现的是找回率Recall。对于一个查询,返回了一系列的文档,正确率指的是返回的结果中相关的文档占的比例,定义为:precision=返回结果中相关文档的数目/返回结果的数目;而召回率则是返回结果中相关文档占所有相关文档的比例,定义为:Recall=返回结果...转载 2018-09-10 15:46:13 · 2530 阅读 · 0 评论 -
KNN K近邻
模型相当于根据样本对特征空间进行了划分。基本思路求出某个样本与其他样本的距离,它的标签就是他最近的K个样本的标签距离度量欧氏距离曼哈顿距离lpl_plp距离https://blog.csdn.net/qq_21768483/article/details/83150449K值选择K值选的小1.变得复杂,容易过拟合(对特征空间划分的更细)2.对噪声敏感K值选的大1.模型...原创 2019-03-26 18:02:43 · 173 阅读 · 0 评论 -
线性模型
线性回归模型:f(x)=ωx+bf\left(x\right)=\omega x+bf(x)=ωx+b损失函数:loss=∑i=1N(y−f(x))2loss=\sum_{i=1}^N\left(y-f\left(x\right)\right)^2loss=i=1∑N(y−f(x))2训练方法1.最小二乘法对ω\omegaω函数求导∂loss∂w=∑i=1N2ωxi2+2bxi−...原创 2019-03-12 17:55:39 · 321 阅读 · 0 评论 -
机器学习三要素
1.三要素组成机器学习=模型+策略+算法1.2模型模型:判别模型,生成模型具体参考:https://blog.csdn.net/qq_21768483/article/details/796974461.3策略原创 2018-09-30 11:02:22 · 3498 阅读 · 0 评论 -
Lp距离, L1范数, 和 L2范数
原文地址:https://blog.csdn.net/hanhuili/article/details/52079590转载 2018-10-18 17:49:19 · 3384 阅读 · 1 评论 -
k近邻法与kd树总结
k近邻法是基本且简单的分类与回归方法. k近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的k个最近邻训练实例点,然后利用这k个训练实例点的类的多数来预测输入实例点的类.k近邻模型对应于基于训练数据集对特征空间的一一个划分. k近邻法中,当训练集、距离度量、k值及分类决策规则确定后,其结果唯~ -确定.k 近邻法三要素:距离度量、k值的选择和分类决策规则,常...原创 2018-10-18 15:34:47 · 353 阅读 · 0 评论 -
基于用户历史位置的用户相似度度量
1.概述定位获取技术发展(GPS,GSM网络等)使人们可以方便地记录他们用时空数据访问的位置历史。收集大量与个人的轨迹有关地理信息,也给我们从这些轨迹中发现有价值的知识带来了我们机遇和挑战。在本文中,我们目的是基于他们的轨迹挖掘相似性用户之间。这样的用户相似性对于个人,社区和企业通过帮助他们有效地检索相关性高的信息。我们提出了一种基于层次图的相似度度量(HGSM,hierarchical-gr...原创 2018-09-11 10:11:05 · 5573 阅读 · 1 评论 -
机器学习降维算法之多维缩放(MDS)
简介 多维缩放(Mutiple Dimensional Scaling)是一种经典的降维方法,可以缓解在高维情形下出现的数据样本稀疏和距离计算困难等问题,即“维数灾难”.感性认知只是直观是这样的感觉真实的计算需要查看原理部分原本样本的维数样本 特征1 特征2 特征3 特征4 A 1 0 2 3 B 2 0...原创 2018-09-05 15:53:11 · 1674 阅读 · 0 评论 -
spark中TF-IDF的理解及其使用
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是, 一...原创 2018-06-05 11:49:08 · 4212 阅读 · 0 评论 -
P问题、NP问题、NP完全问题和NP难问题
在讲P类问题之前先介绍两个个概念:多项式,时间复杂度。(知道这两概念的可以自动跳过这部分)1、多项式:axn-bxn-1+c恩....就是长这个样子的,叫x最高次为n的多项式....咳咳,别嫌我啰嗦。。有些人说不定还真忘了啥是多项式了。。例如第一次看到的鄙人→_→2、时间复杂度我们知道在计算机算法求解问题当中,经常用时间复杂度和空间复杂度来表示一个算法的运行效率。空间复杂度表示一个算法在计算过程当...原创 2018-05-24 14:24:38 · 100824 阅读 · 46 评论 -
读书笔记 |《推荐系统实践》- 个性化推荐系统总结
原文地址https://www.jianshu.com/p/319e4933c5ba转载 2018-05-22 10:39:43 · 301 阅读 · 0 评论 -
感知机学习总结
文章大量摘自《统计学习方法》李航感知机是根据实例的特征向量xxx对其进行二分类的线性分类模型:f(x)=sign(w⋅x+b)f(x)=sign(w·x+b)f(x)=sign(w⋅x+b)感知机模型对应输入空间(特征空间)中的分离超平面w⋅x+bw·x+bw⋅x+b。感知机的学习策略是极小化损失函数:minw,bL(w,b)=−∑xi∈Myi(w⋅x+b)\underset...原创 2018-10-10 11:06:23 · 498 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯法是典型的生成学习方法.生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y | X).具体来说, 利用训练数据学习P(X[Y)和P(Y)的估计,得到联合概率分布:概率估计方法可以是极大似然估计或贝叶斯估计:朴素贝叶斯法的基本假设是条件独立性,这是一个较强的假设. 由于这- ~假设, 模型包含的条件概率的数量大为减少,朴素贝叶斯法的学习与预测...原创 2018-10-19 13:44:35 · 222 阅读 · 0 评论 -
欧几里得空间与希尔伯特空间
https://blog.csdn.net/weixin_36811328/article/details/81207753转载 2018-11-01 16:36:55 · 2119 阅读 · 0 评论 -
朴素贝叶斯
1.贝叶斯公式P(Y=ck∣X=x)=P(X=x∣Y=ck)P(Y=ck)∑kP(X=x∣Y=ck)P(Y=ck) P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum _k {P(X=x|Y=c_k)P(Y=c_k)}}P(Y=ck∣X=x)=∑kP(X=x∣Y=ck)P(Y=ck)P(X=x∣Y=ck)P(Y=ck)条件独立性假设:每个...原创 2019-03-05 16:41:14 · 165 阅读 · 0 评论 -
SVM_Multi_class_classification
import numpy as np #产生正态分布的数据100组,中心点(0,0),其标准差σ为1p=np.random.randn(100,2)#将中心点移动到(5,0),作为第0类for i in range(100): p[i][0]+=5 p[i][1]+=0#产生正态分布的数据100组,中心点(0,0),其标准差σ为1,作为第1类f=np.random.r...原创 2019-01-16 11:25:52 · 1774 阅读 · 0 评论 -
SVM利用网格搜索和交叉验证进行超参选择
import numpy as np #产生正态分布的数据100组,中心点(0,0),其标准差σ为1p=np.random.randn(100,2)#将中心点移动到(3.5,3.5),作为正类for i in range(100): p[i][0]+=3.5 p[i][1]+=3.5#产生正态分布的数据100组,中心点(0,0),其标准差σ为1,作为负类f=np.ra...原创 2019-01-21 16:01:34 · 11842 阅读 · 3 评论 -
利用scikit-learn实现svm
import numpy as np #产生正态分布的数据100组,中心点(0,0),其标准差σ为1p=np.random.randn(100,2)#将中心点移动到(2.5,2.5),作为正类for i in range(100): p[i][0]+=2.5 p[i][1]+=2.5#产生正态分布的数据100组,中心点(0,0),其标准差σ为1,作为负类f=np.ra...原创 2019-01-15 16:51:37 · 871 阅读 · 0 评论 -
SVM与Logistic回归
逻辑回归hθ(x)=11+e−θxh_\theta(x)= \dfrac1{1+e^{-\theta x}}hθ(x)=1+e−θx1如果y=1,则我们希望hθ(x)≈1h_\theta(x) \approx1hθ(x)≈1,则必须要θx≫0\theta x \gg0θx≫0如果y=0,则我们希望hθ(x)≈0h_\theta(x) \approx0hθ(x)≈0,则必须要θx≪0\...原创 2019-01-10 20:00:01 · 1309 阅读 · 0 评论 -
隐马尔科夫模型
定义实例模型图示原创 2018-11-28 16:25:22 · 197 阅读 · 0 评论