自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 OSError:libcusparse.so.10.0:cannot open shared object file:No such file or directory

跑图神经网络需要用到torch_geometric,但是在用的出现上述错误,特记录解决过程。版本其实匹不匹配不重要 因为环境中有torch时自然会下载和他匹配的版本,当然可以从torch_geometric的网站下载相应版本,网址:https://pytorch-geometric.com/whl从中选择相应的torch版本,进入链接后会有torch_scatter、torch_cluster、torch_sparse、以及torch_spline_conv,分别下载相应的whl文件,再用pip安装即

2021-03-23 20:52:44 4850 1

转载 关于词向量

转自:https://blog.csdn.net/xpy870663266/article/details/101849044很好的一篇博客,总结的很好,很全面。

2020-11-08 00:11:23 121

转载 bert

关于bert的那些面试问题BERT 的基本原理是什么?BERT 是怎么用 Transformer 的?BERT 的训练过程是怎么样的?为什么 BERT 比 ELMo 效果好?ELMo 和 BERT 的区别是什么?BERT 有什么局限性?BERT 的输入和输出分别是什么?针对句子语义相似度/多标签分类/机器翻译翻译/文本生成的任务,利用 BERT 结构怎么做 fine-tuning?BERT 应用于有空格丢失或者单词拼写错误等数据是否还是有效?有什么改进的方法?BERT 的 embeddin

2020-11-07 19:57:28 298

转载 激活函数

在深度学习中,信号从一个神经元传入到下一层神经元之前是通过线性叠加来计算的,而进入下一层神经元需要经过非线性的激活函数,继续往下传递,如此循环下去。由于这些非线性函数的反复叠加,才使得神经网络有足够的capacity来抓取复杂的特征。为什么要使用非线性激活函数?答:如果不使用激活函数,这种情况下每一层输出都是上一层输入的线性函数。无论神经网络有多少层,输出都是输入的线性函数,这样就和只有一个隐藏层的效果是一样的。这种情况相当于多层感知机(MLP)。1、Sigmoid函数优点:(1)便于求导的平滑

2020-11-07 19:14:34 165

原创 RNN及LSTM

1.RNN结构图:公式:Si=f(UXi+WSi−1)S_i=f(UX_i+WS_{i-1})Si​=f(UXi​+WSi−1​) ==> 使用tanh激活函数Oi=g(VSi)O_i=g(VS_i)Oi​=g(VSi​)反向传播:梯度消失:RNN梯度消失是因为激活函数tanh函数的倒数在0到1之间,反向传播时更新前面时刻的参数时,当参数W初始化为小于1的数,则多个(tanh函数’ * W)相乘,将导致求得的偏导极小(小于1的数连乘),从而导致梯度消失。梯度爆炸:当参数初始化为

2020-11-07 18:50:48 100

原创 BN & LN

BN和LN都是常用的归一化方法,它们的目的也都是使某一层的输出能够落在激活函数比较敏感的区间内,使得梯度变大,训练速度加快,从而也能缓解梯度消失的情况。 BN是在batch这个维度上去做归一化,它使用的是一个batch中的全部数据,在相同的维度上计算均值和方差。也就是说,如果现在有一个B*L的数据,我们就需要分别计算L个均值和方差。 LN是在层这个维度上去做归一化,它只使用单个样本进行计算,也就是说对于B*L的数据,我们需要计算B个均值和方差。 借用网上的图进行说明: ...

2020-11-07 15:27:59 352

原创 关于面试中的那些Transformer

话不多说,先上图吧!!!1.简介Transformer,使用的就是Seq2Seq框架,解决的也是Seq2Seq的问题,但是它利用独有的自注意力机制,解决了序列中的长期依赖问题,同时实现了并行计算,在很多任务中都有很好的表现。它也是由编码器和解码器组成。2.编码器Transformer的编码器是由一个多头自注意力机制以及一个前馈神经网络组成,每个层后都跟有一个残差连接以及层归一化。一共有6层,第一层的输入是词向量,其他每层的输入都是上一层的输出。2.1多头自注意力首先多头自注意力机制,它将输入序

2020-09-17 16:31:16 503 1

原创 ValueError: numpy.ufunc size changed, may indicate binary incompatibility

遇到错误:ValueError: numpy.ufunc size changed, may indicate binary incompatibility. Expected 216 from C header, got 192 from PyObject解决办法:升级numpy的版本:pip install --upgrade numpy

2020-07-17 13:30:23 394

原创 Theano中遇到的问题

运行一个theano程序出现错误:Problem occurred during compilation with the command line below: "C:\ProgramData\Anaconda3\envs\theano\Library\mingw-w64\bin\g++.exe -shared -g -O3 -fno-math-errno -Wno-unused-label -Wno-unused-variable -Wno-write-strings -march=ivybridg

2020-07-17 13:19:18 584

原创 ERROR: Could not find a version that satisfies the requirement yaml (from versions: none)

安装yaml出错:ERROR: Could not find a version that satisfies the requirement yaml (from versions: none)解决办法:pip install pyymal

2020-07-16 00:23:46 3144 3

原创 Linux服务器中创建新用户

$sudo useradd -m -s /bin/bash userName #在home目录下新建用户userName$sudo passwd userName #为userName设置密码Enter new UNIX password: Retype new UNIX password: passwd:password updated successfully # 输入密码$userdel -r userName # 删除用户$useradd -d /home/home

2020-06-30 12:17:02 727

原创 ELMo,了解一下

ELMo是基于上下文的词表示模型,它和传统的word2vec等的区别是能够动态的表示词向量,怎么个动态法呢?说白了就是一词多义。传统的one-hot、word2vec这些词向量表示,都没有考虑到一词多义的问题,即它们认为“植物 需要 水分 才能 活着”和“他的 话 中 含有 很大的 水分”中的“水分”意思是一样的,拥有同一个编码,而ELMo则会给他们分配不同的编码来表示它们拥有不同的含义。公式太...

2020-04-06 01:17:43 293

原创 Q-Learning学习笔记

最近看了“莫烦Python”系列视频,总结其中知识点。在word中做的笔记,懒得再打一遍了,就直接上图了。。。Q-Learning

2020-03-11 01:01:53 92 1

原创 强化学习中的模型分类

模型分类第一种分类方式:第二种分类方式:第三种分类方式第四种分类方式

2020-03-11 00:55:57 504

原创 Anaconda通过清华镜像下载包

比如下载tensorflow:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow直接通过pypi下载即可

2020-02-28 22:50:30 2330 1

原创 Tensorboard可视化

主要用到tf.summary函数。比如对计算结果进行可视化。z = tf.multiply(X,W)+btf.summary.histogram('z',z)对loss进行可视化:cost = tf.reduce_mean(tf.square(Y - z))tf.summary.scalar('loss_function',cost)然后在session中写入日志:init =...

2020-02-12 19:54:27 99

原创 checkpoint

有时候模型特别大,训练时间特别长,如果没有设置断点,中间如果出现一些不可控因素时,那之前训练的结果就都没有了,就白白浪费了人力物力资源。所以,在模型训练一定时间后,应该为它保存断点,这个也为后面使用模型中的一些参数提供了方便。那我们以线性模型为例:import tensorflow as tfimport numpy as np# 1 生成模拟数据train_x = np.linspace...

2020-02-12 18:05:12 737

原创 Anaconda遇到ConnectionError

今天在家开始工作,啥都没干呢就遇到numpy包版本错误的问题,然后就开始漫长的修改之路。删除的时候很容易就删掉了,但是下载的时候可就麻烦了,下载了一下午什么都下载不下来,等半天最后提示ConnectionError,为此我还重新下载了Anaconda,其实都没有必要,直接把镜像改一下就好了。改成清华镜像的两句命令(在cmd中直接写入就可以了):conda config --add channel...

2020-02-02 16:52:05 718 1

原创 tf.nn.embedding_lookup()函数

总是搞不清楚经过这个函数以后,张量的尺寸变化,现在进行一下总结。tf.nn.embedding_lookup( params, ids, partition_strategy='mod', name=None, validate_indices=Tr...

2020-01-07 20:12:05 183

原创 LSTM详解

LSTM详解LSTM(Long Short Term Memory),即一种特殊的RNN形式,主要用来解决长期依赖问题,结构图如下:可以看到它主要由三个门和一个细胞单元组成。这些门其实都是一种非线性变换,主要目的就是决定有多少信息能够通过。遗忘门决定上一时刻的单元状态Ct-1中有多少信息保留到当前时刻Ct公式:输入门决定当前输入有多少信息保存到单元状态Ct公式:在此处还...

2020-01-07 11:27:08 557

原创 highway network

Highway Networkhighway network 主要解决了因网络深度的加深,梯度信息回流受阻,从而造成网络训练困难的问题。它其实就是一个门结构,用这个门来控制输入的信息中有多少信息被激活,有多少信息一成不变的输入到下一层。同时在反向传播的时候,能够让更多的信息直接回流到输入,而不需要竟敢一个非线性转化。公式:注:H、T均为一个非线性变换,T这个非线性变换表示一个概率,也就是...

2020-01-07 10:21:51 353

转载 使用RNN时,cell的设置

使用静态rnn处理时序数据import tensorflow as tffrom tensorflow.contrib import rnnx=tf.placeholder("float",[None,time_steps,length])y=tf.placeholder("float",[None,n_classes])input=tf.unstack(x ,time_steps,...

2020-01-03 09:25:00 300

原创 将字符串文本切分成词2

将字符串文本切分成词,并且提取出英文单词,同时将所有数字用token代替import refrom collections import Countertexts = 'ok i am fine 今天 天气 很好 123 563 45'NUM = "<num>"s = re.sub('\d+', NUM, s).lower()texts_str = s.split(' ...

2019-04-25 21:05:58 174

原创 将字符串文本切分成字

将字符串文本切分成字texts = 'start person_topic_a person_topic_b person_topic_a 出生 日期 ’ ’ - - person_topic_b 出生 日期 - - ’ 'person_topic_a 血型 a型 person_topic_a 标签 口碑 很好 person_topic_a 获奖 移动迷宫_提名 _ ’ '( ...

2019-04-25 16:21:05 174

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除