Nstar-LDS-CSDN博客

原创 conda ‘Solving environment: failed‘ 解决方案

方法一：添加环境变量某些例如安装包等类似操作会在用户不知道的时候改变环境变量，因此如果是Windows用户就检查一下自己的环境变量，如果是Ubuntu用户，则打开主目录里面的.bashrc文件，添加下面三句话export PATH="$PATH:～/anaconda3/Scripts"export PATH="$PATH:～/anaconda3"export PATH="$PATH:～/anaconda3/Library/bin"重新打开一个新的命令行执行conda install命令即可，亲测

2020-07-23 19:43:47 10730

原创更新或安装导致No module named ‘conda‘解决方案

打开命令行，先暂时下载这样一个包用来修复你的condawget -O conda-exec https://repo.anaconda.com/pkgs/misc/conda-execs/conda-latest-linux-64.exe出现以下下载信息，下载成功然后赋予执行权限chmod +x conda-exec接下来在环境变量里添加你想要修复的conda文件夹export CONDA_ROOT_PREFIX=~/anaconda3然后执行下面语句验证添加的环境变量路径是否关联到了

2020-07-19 12:00:24 5286 7

原创 LINE: Large-scale Information Network Embedding阅读笔记

文章名为LINE：大规模信息网络特征表示，发表于WWW 2015，一作单位微软亚研院。这篇文章提出的LINE可适用于百万级边的大型网络，不基于random walk而是通过网络结构（1阶相似度与2阶相似度）设计优化目标函数，通过SGD来学习得到node embedding，是一篇开拓性的工作。简单说就是两点之间边的真实权重，和预测权重之间的差距，通过KL散度来度量，得到目标函数，然后进行优化学习。研究背景图神经网络的研究背景都差不多，传统的算法对邻接矩阵进行分解，学到的是每一个node的特征向量（背

2020-07-05 18:21:59 502

原创深度学习必备数学基础全讲解

数学基础总结花书1-4章，所必备的数学基础如下矩阵对角化，SVD分解与应用（神经网络加速，图像压缩）逆矩阵，伪逆矩阵PCA原理与推导极大似然估计等估计方法有约束无约束的最优化问题...

2020-06-16 12:51:33 1217 1

原创机器学习常用的numpy方法总结

numpy.ravel()&numpy.flatten()两个函数都是将多维的数组铺平成一维的数组，但是两者的区别是返回拷贝还是返回视图，就是说ravel返回的东西，修改后会影响原数组，flatten返回的东西，修改后就不会影响原数组。numpy.meshgrid()一般在分类结果可视化的时候常用，快速生成坐标矩阵，然后根据判别边界划分坐标矩阵中的所有的点。x = np.linspace(0,1000,20)y = np.linspace(0,500,20)X,Y = np.meshgr

2020-06-12 09:01:22 435

原创 Chinese NER Using Lattice LSTM阅读笔记

这篇论文发表于ACL 2018，研究单位是新加坡科技大学。研究背景中文命名实体识别长久存在挑战的就是命名实体边界问题，还有粗粒度造成的识别问题，以及比词性标注更具混淆性的类别分类。举几个反映实际问题的例子：中华人民共和国中央人民政府（复合）《白鹿原》改编自同名小说《白鹿原》（类别混淆）《莫斯科的夜晚》（嵌套+类别混淆）中国工商银行，工商银行，工行（简称）上海博物馆（地名，也可以是机构名）OOV问题（命名实体无穷无尽，至今NER模型泛化能力都远低于预期）新冠，秀儿，冲鸭，舔狗，我伙呆（新

2020-06-10 22:10:26 501

原创 Modeling Relational Data with GCN阅读笔记

文章目录基础知识提要欧式空间非欧数据图结构知识图谱GCN模型部分基分解块对角分解总结应用基础知识提要欧式空间欧几里得空间中的数据最显著的特征就是有规则的空间结构，比如图片是规则的正方形栅格，语音是规则的一维序列，文本也是规则的序列，这些数据结构能够用一维、二维的矩阵表示。非欧数据有很多数据不具备规则的空间结构，这些数据就称为非欧数据。比如推荐系统、电子交易、分子结构或者知识图谱。这些图谱结构每个节点连接都不尽相同，有的节点有三个连接，有的节点有两个连接，是不规则的数据结构。表示非欧数据的方式之一

2020-06-06 17:44:44 467

原创概率潜在语义分析(PLSA)

文章目录基本概要生成模型和共现模型概率潜在语义分析的算法基本概要概率潜在语义分析是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型最大的特点就是用隐变量表示话题。整个模型表示文本生成话题，话题生成单词，从而得到单词-文本共现数据的过程。假设每个文本由一个话题分布决定，每个话题由一个单词分布决定。概率潜在语义分析受潜在语义分析的启发，1999年由Hofmann提出。最初用于文本数据挖掘，后来扩展至其他领域。上面的说法比较抽象，下面采用更加具体的说法。给定一个文本集合（一句句的话），每

2020-05-30 16:44:08 1173

原创潜在语义分析——统计学时代NLP的经典方法

基本概要潜在语义分析，简称LSA(Latent semantic analysis)，1990年提出，是一种无监督学习方法，主要用于文本的话题分析、信息检索、推荐系统、图像处理等等。其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。文本信息处理中，传统方法以词向量表示文本的语义内容，以单词向量空间的度量表示文本之间的语义相似度。而这样的方式真的可以准确表示语义吗？不能（当时应该还是词袋模型one-hot表示法或频率统计或者共现矩阵，word2vec之后基本上可以满足，即使有的场景不满足也是要基

2020-05-26 15:36:07 984

原创主成分分析所有知识点全解

基本概念梳理主成分分析方法，是一种使用最广泛的数据降维算法。主要思想是将n维特征映射到k维上，这k维是全新的正交特征，这些正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。这k维构造得好不好，主要看k维空间下，对原始样本空间中数据的特点是否进行了有效的保持，这样机器学习性能才不会大打折扣，保持越多构造得就越好。这些k维空间的正交特征可以理解为k个坐标轴，这k个坐标轴的选取是有规律的，一般第一个坐标轴选取原始数据中方差最大的方向，第m个坐标轴选取与前m-1个正交且使得数据在该轴上投影

2020-05-23 13:32:53 2264

原创全面理解奇异值分解

本篇笔记主要参考《统计学习方法》奇异值分解的定义与性质奇异值分解又叫做SVD，是一种矩阵因子分解方法，是统计学习中的重要工具。任意一个m x n矩阵，都可以表示为三个矩阵的乘积形式，分别是m阶标准正交矩阵、由降序排列的非负对角线元素组成的m x n矩形对角矩阵和n阶标准正交矩阵，这就称为该矩阵的奇异值分解。奇异值分解可以看作矩阵数据压缩的一种方法，即用因子分解的方式近似地表示原始矩阵，这种近似是在平方损失意义下的最优近似。统计学习方法中对奇异值分解定义如下其中UUT=IVVT=IΣ=diag

2020-05-20 20:56:31 14218 6

原创线性代数——特征值与特征向量

定义几何学意义

2020-05-16 14:27:47 1889

原创 ARNOR阅读笔记

论文名称《Attention Regularization based Noise Reduction for Distant Supervision Relation Classification》基于注意力正则化的ARNOR框架文章目录弱监督关系抽取基于多示例学习的方法基于Bootstrapping的方法弱监督关系抽取弱监督学习是有监督学习和无监督学习的折中，训练数据只有部分标注有噪声...

2020-05-15 20:51:45 466

原创线性代数——LU(LR)分解

定义：给定矩阵A，将A表示成下三角矩阵L和上三角矩阵U的乘积，称为LU分解。

2020-05-13 11:20:45 6170 1

原创矩阵可逆性的理解与总结

以下学习笔记总结于《程序员的数学之线性代数》基本概念对于给定的问题y=Axy=Axy=Ax，如何判断矩阵A是否可逆或者该问题在确定y时是否有解呢？首先，如果A不是方阵，解的存在性和唯一性两者至少有一个被破坏了。为什么呢？我将用下面一段话对该问题给出直观理解。A是m行n列，如果m<n，那么破坏的就是解的唯一性，因为A这个映射把原空间压缩了，压缩就必定存在信息丢失，在空间中也就意味着多个x将对应一个y，所以x不唯一。如果m>n，那么破坏的就是解的存在性，因为A这个映射把原空间维数扩大了，这时候

2020-05-10 10:57:04 8718 1

原创 BLEU score 原理与解释

BLEU代表bilingual evaluation understudy，即双语评估替补。所谓替补就是代替人类来评估机器翻译的每一个输出结果。例如法语翻译成英语的任务中，源语句是：Le chat est sur le tapis而翻译成英语的形式多种多样，例如：reference1：The cat is on the mat.reference2：There is a cat on t...

2020-05-02 22:15:22 4063 1

原创 Node2Vec图神经网络论文阅读笔记

斯坦福图神经网络数据集snap是Jure等人不间断收集的网络数据集，极大地推动了社交网络领域的发展。node2vec能探索领域的多样性

2020-04-28 16:56:53 654

原创 ERNIE：Enhanced Language Representation with Informative Entities阅读笔记

ERNIE主要是基于bert进行改造的，ERNIE这篇文章argue说之前的预训练模型还有不足之处，忽略了将知识信息整合到语言理解中，并采用了下图证明了可优化的地方那如果想要将外部知识组合到语言表征模型中，我们就会遇到两大主要挑战结构化的知识编码：对给定的文本，如何高效地抽取并编码对应的知识图谱是非常重要的，这些知识图谱需要能直接用于语言模型异质信息融合：语言表征的预训练过程和知识表征的...

2020-04-23 17:07:27 249

原创收藏！机器学习100个相关资源推荐

文章目录前言基础知识篇工程实践篇如何做研究paper资源其他资源写在最后100篇导航检索式网站、学习笔记与教材推荐（资源持续更新中~）前言理工科生从大三往后，往往已经具备了学习机器学习和深度学习的基础了，此时已经具备了高等数学、概率统计和线性代数的初步知识，本篇文章主要想描绘从此刻开始，到一个合格的熟练掌握机器学习和深度学习知识的专业领域内的拔尖人才，这中间的路上需要踩过哪些地砖。都是一些个...

2020-04-23 15:03:45 490

原创 pytorch中GPU的使用

CPU与GPU数据迁移至GPU多GPU并行运算

2020-04-14 17:25:31 866

原创统计机器学习方法——支持向量机

支持向量机和感知机的差别仅在与损失函数不同而已（有间隔最大的要求）。它也是一种二分类模型。数据点就叫支撑向量。当数据线性可分时，就使得所有点到直线距离最大化的直线，让直线变成唯一的。两个支撑超平面H之间没有数据点，两个支撑超平面之间的距离称为硬间隔（不允许有数据点出现在支撑超平面之间），也有软间隔（允许点出现在支撑超平面之间，如果点出现在分离超平面另一边也就是错分类，需要加个惩罚）。支撑超平面...

2020-04-14 12:15:37 201

原创全面理解条件随机场

条件随机场(CRF)是给定一组输入随机变量条件下，另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。本篇笔记主要是关于线性链条件随机场，就是由输入序列对输出序列预测的判别模型，形式为对数线性模型，学习方法是极大似然+正则。概率无向图模型概率无向图模型又称为马尔可夫随机场，是一个可以由无向图表示的联合概率分布。无向图中连接两个结点的边表明了这两个结点存在某种关系，...

2020-04-12 17:18:08 554

原创最大熵模型与学习算法（附加拉格朗日对偶性详解）

这是在自然语言处理中常用到的模型，熵代表信息的混乱程度。最大熵模型就是要在满足约束条件的模型集合中选择熵最大的模型，为什么要选择熵最大的模型呢？因为在不清楚真实数据分布的情况下，我们只能假设数据的分布是平均的，而概率越平均分布的模型的预测结果，它的熵就越大。个人认为熵越大从某种程度上说也能避免过拟合。...

2020-04-12 17:12:36 887

原创全面理解隐马尔可夫模型

隐马尔可夫模型的基本概念隐马尔可夫模型（Hidden Markov Model, HMM）是可用于标注问题的统计学习模型，也叫概率模型。描述由隐藏的马尔科夫链随机生成观测序列的过程属于生成模型。对于随机变量个数非常多的情况，往往会用概率图模型来描述变量间的关系（这个关系往往表示是不是独立的）。概率图模型分为有向图和无向图两种情况，而隐马尔可夫模型用的就是有向图表示变量间的关系。隐马尔可夫模型的...

2020-04-05 17:48:06 855

原创 NLP中的关系抽取方法归纳

本文是阅读完娄杰所写NLP中的实体关系抽取方法总结一文之后，摘录其中部分段落，结合自己对信息抽取工作的理解，作出的一些补充。前言说到信息抽取，不得不提的就是实体关系抽取(Entity and Relation Extraction)，实体关系抽取是信息抽取的关键任务之一。本文也将主要围绕这个关键任务进行讨论。实体关系抽取任务是一个级联任务，分为两个子任务：命名实体识别（NER）和关系抽取（RE...

2020-04-03 14:40:57 5556 2

原创全面理解EM算法

EM算法的引入EM算法用于含有隐变量的概率模型参数的极大似然估计或极大后验概率估计。和其他估计方法不同之处就在于，最大化观测数据的似然函数变成最大化完全数据的似然函数。如果概率模型的变量都是观测变量，那给定数据就能直接用极大似然估计或贝叶斯估计来估计模型参数。但是，当模型含有隐变量时，就不能简单使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法或极大后验概率估计法。EM算...

2020-04-03 14:33:03 581

原创 Boosting方法详解

提升方法在分类问题中，通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。提升方法与AdaBoost算法提升方法的核心思想就是：一个复杂的任务由多个专家的判断进行适当综合所得出的结论，比其中任何一个专家单独判断所给出的结论要好。提升方法的基本思路对于分类问题而言，给定一个训练样本集，求比较粗糙的分类规则（分类结果比随机猜测要好的规则也叫弱分类器）要比求精确的...

2020-04-01 17:45:22 2432

原创全面理解决策树

文章目录前言决策树模型与学习决策树模型决策树与条件概率分布决策树学习特征选择信息增益信息增益比决策树的生成决策树的剪枝该篇笔记主要思路借鉴《统计学习方法》前言决策树是一种基本的分类与回归方法，《统计学习方法》中主要讨论的是用于分类的决策树，《The Element of Statistical Learning》中对树结构方法的讨论较为全面，但是对应的门槛也较高。如果要全面掌握树结构方法，可...

2020-03-29 16:43:35 349

原创 pytorch中的模型保存与加载

文章目录存储和装载（序列化与反序列化）基本概念pytorch中的序列化与反序列化torch.save()使用方法torch.load()动手实验整模型存储模型可学习参数存储断点续训练该篇笔记整理自余庭嵩的讲解。存储和装载（序列化与反序列化）基本概念模型在训练的时候，各个参数都是存储在内存中的，但是内存不具备长久存储数据的功能，所以就需要将内存中的数据搬到硬盘上进行存储，以备后续用途。而模型...

2020-03-27 17:14:36 622 2

原创常见的几种normalization方法

文章目录几种常见的normalization方法基本知识数学原理Batch Normalization (BN)Layer Normalization (LN)pytorch中的LNInstance Normalization (IN)Group Normalization (GN)PyTorch中的使用总结这篇笔记主要来自余庭嵩的讲解。几种常见的normalization方法基本知识为什...

2020-03-26 20:23:04 749 1

原创动手理解Batch Normalization

文章目录Batch Normalization基础知识数学原理PyTorch中的BN实验部分torch.nn.BatchNorm1dtorch.nn.BatchNorm2dtorch.nn.BatchNorm3dBatch Normalization的概念出自《Batch Normalization: Accelerating Deep Network Training by Reducing ...

2020-03-25 22:55:08 474

原创 pytorch中的正则化方法

基础简介正则化的含义：其实正则化就是减小方差的策略。那么什么是方差，为什么要减小方差？这里首先要提到误差的本质。误差可以分解为偏差，方差以及噪声之和，具体如何分解可参考个人之前写的这篇笔记最后部分的推导。三者的意义可描述如下：偏差：度量了学习算法的期望预测结果与真实结果的偏离程度，刻画了学习算法本身的拟合能力方差：度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动造成的影...

2020-03-24 21:38:09 4572 1

原创 End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 阅读笔记

论文原文End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF论文信息ACL2016论文解读Zhang & Hytn Chen更新时间2020-03-06命名实体识别简介命名实体识别的目的是识别语料中人名、地名、组织机构名等命名实体。而命名实体是命名实体识别的研究主体，一般包括...

2020-03-22 15:45:51 1724

原创朴素贝叶斯法详解

文章目录朴素贝叶斯法的学习和分类基本方法后验概率最大化的道理朴素贝叶斯法的参数估计极大似然估计贝叶斯估计补充知识本笔记主要思路和内容源自《统计学习方法》，笔者采取了更易于理解的方式进行解读朴素贝叶斯法的学习和分类基本方法假设输入是一个n维向量的集合，输出是一个类标记y，y的集合有K个元素。定义n维随机向量X代表输入特征，定义随机变量Y代表标签。对于如下训练数据集：T={(x1,y1),...

2020-03-21 17:31:06 697

原创感知器模型代码实现

普通版本人编写感知器模型部分的代码实例如下：class Perception(object): def __init__(self): self.w = None # dim x 1 self.b = 0 self.lr = 0.5 def obj_func(self, xi, yi): return yi*(...

2020-03-20 14:07:00 1101

原创极大似然估计与贝叶斯估计

文章目录极大似然估计核心思想一般步骤具体实例贝叶斯估计核心思想一般步骤具体实例总结极大似然估计核心思想已知某个随机变量的样本集合X符合某种概率分布，但是这个分布的超参数θ\thetaθ还未知。此时即可通过极大似然估计得到θ^\hat \thetaθ^，令估计得到的θ^\hat \thetaθ^使得这个样本集合出现的概率最大。即θ^=arg⁡max⁡θP(D∣θ)\hat{\boldsymb...

2020-03-19 17:10:35 801

原创关系抽取数据集评价方法scorer.py解读

真实关系的列表存在key中，预测关系的列表存在prediction中，从dev数据集中获取样本，以tacred为例，包含两万多条记录。以真实label存储，不是one-hot。在该评价方法中，也有TP，FP，TN，FN的概念，positive就代表了实体之间存在关系的样本，negative则代表不存在关系的样本。def score(key, prediction, verbose=False)...

2020-03-18 13:24:18 1375

原创 TensorBoard使用

TensorBoardTensorBoard是TensorFlow中强大的可视化工具，其运行机理过程如下。首先python脚本用SummaryWriter记录可视化的数据，接下来数据将以event file形式被存储至硬盘中，之后在命令行启动tensorboard并指定数据存储位置，每隔30s的时间（可自己设定）读取硬盘指定存储位置中的数据在web端做出展示。SummaryWriter功能...

2020-03-17 15:27:20 1122

原创图解6种pytorch学习率调整策略

文章目录学习率调整策略基础知识pytorch中的6种学习率调整策略StepLR数学原理代码实例MultiStepLR数学原理代码实例ExponentialLR数学原理代码实例CosineAnnealingLR数学原理代码实例ReduceLRonPlateau数学原理代码实例LambdaLR数学原理代码实例总结该篇笔记整理自余庭嵩的讲解。学习率调整策略基础知识梯度下降算法中的学习率的作用是：...

2020-03-16 17:09:11 2777 1

原创协方差矩阵的几何性质

本篇笔记将以向量值随机变量X=(X1,…,Xn)TX=(X_1,\dots,X_n)^TX=(X1,…,Xn)T的协方差矩阵为例，研究其性质。在阅读笔记之前可先记下先导篇中的相关结论，尤其是该篇中任意方向发散程度章节的结论。本篇笔记主要参考借鉴的基础教材是《程序员的数学之概率统计》。单位矩阵与圆首先看一种最简单的情况，即协方差矩阵为单位矩阵。此时该矩阵有一个显著特征，即任意方向上的方差都为...

2020-03-15 14:13:27 6873 1

应用线性代数课程PPT

机器学习学习笔记.rar

空空如也