筱踏云-CSDN博客

原创爬虫中文乱码

可能解决方案response = request.get()response.encoding = response.apparent_encoding

2021-11-03 16:55:34 104

原创《Longformer: The Long-Document Transformer》（）论文阅读

前言论文地址：https://arxiv.org/pdf/2004.05150.pdf代码地址：https://github.com/allenai/longformer1、Introduction虽然 self-attention 的效果很好，但是它所需要的内存和算力会随序列呈平方增长。现在的方法大多是将上下文缩短或者划分为较小的序列，以限制这些序列再512的长度内。为了解决这个问题，提出了 Longformer。它包含局部 attention 和全局的 attention。2、Rela

2020-09-24 14:46:37 488

原创《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》（ICLR-2020）论文阅读

前言论文地址：https://openreview.net/forum?id=r1xMH1BtvB代码地址：https://github.com/google-research/electraAbstract就跟题目里说的一样，它将目标放在了 Discriminator 上了，换句话说，它跟 GAN 的结构相似，但是判别器是语言模型，然后最终用的也是判别器。1、Introduction像 Bert 这种，使用 mask 的方式来训练，的确能取得很好的效果，但是需要大量的算力，比如每次用 15

2020-09-20 15:25:57 515 1

原创 GLUE 数据集

1、FLUE数据集GLUE包含九项自然语言理解任务(NLU)数据集，均为英语。数据集TrainTest简介CoLA8.5k1k单句子分类任务，二分类，判断句子是否合法。SST-267k1.8k单句子分类任务，二分类，判断句子情感极性。MRPC3.7k1.7k每个样例是两个句子，判断句子对是否是相同意思，二分类。STSB7k1.4k判断句子对相似性，分数为1~5。QQP364k391k判定句子对是否等效，等效、不等效两种情况，二

2020-09-20 13:46:29 941

原创 windows写的shell脚本linux报错

解决方式我碰到的就是换行符的原因，也就是windows下的换行是 \r\n，而linux下的不是，解决方式：更换文件格式，用vim命令，下面两行代码等价:：set ff=unix：set fileformat=unix

2020-09-10 15:05:54 154

原创自然语言处理个人收藏网站

数据集中文NLP数据集及常用英文数据集：https://github.com/CLUEbenchmark/CLUEDatasetSearch中文NLP数据集：https://github.com/SophonPlus/ChineseNlpCorpus阿里数据集：https://tianchi.aliyun.com/dataset/?spm=5176.12281897.0.0.56e339a9m7HwO3研究方向NLP研究方向及动向：https://paperswithcode.com/are

2020-08-30 19:54:53 205

原创 pandas 读写mysql

写操作import pandas as pdfrom sqlalchemy import create_enginedf = pd.DataFrame([[4,'x'],[6,'y']],columns=['col1', 'col2'])# user:用户名 password:密码 batabasename:数据库名engine = create_engine("mysql+pymysql://user:password@ip/databasename", encoding='utf8')

2020-08-21 11:27:04 311

原创《MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices》（ACL-2020）论文阅读

前言论文地址：https://arxiv.org/abs/2004.02984代码地址：https://github.com/google-research/google-research/tree/master/mobilebertAbstract提出 MobileBert 来压缩和加速 Bert 模型。1、IntroductionMobileBERT 采用的和 BERT-large 一样深的层数，在每一层中的 transformer 中加入了 bottleneck 机制使得每一层 tra

2020-08-07 10:53:40 956

原创《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》（NeurIPS-2019）论文阅读

前言论文地址：https://arxiv.org/abs/1910.01108代码地址：https://github.com/huggingface/transformersAbstract就是蒸馏bert，减少参数，加快速度。1、Introduction基于 Transformer 的与预训练的模型尺寸越来越大：模型越来越大，速度也越来越慢，然后作者提出蒸馏的方法解决该问题。作者在这篇论文中证明了使用预先经过知识蒸馏训练的小得多的语言模型可以在许多下游任务上达到相似的性能，从而使

2020-08-04 16:49:29 620

原创《TinyBERT: Distilling BERT for Natural Language Understanding》（ICLR-2020在审）论文阅读

前言论文地址：https://arxiv.org/abs/1909.10351代码地址：https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERTAbstract目的：加快速度，减少内存，同时尽可能保持效果。1、Introduction提出了一种新的 Transformer 蒸馏方法。提出了一个两段式的学习框架，该框架可以在 pre-training 和 fine-tuning 阶段都能使

2020-08-03 22:01:12 1231

原创《FastBERT: a Self-distilling BERT with Adaptive Inference Time》（ACL-2020）论文阅读

前言论文地址：https://arxiv.org/pdf/2004.02178.pdf代码地址：https://github.com/autoliuweijie/FastBERTAbstract目的：提高bert速度，且尽可能减少性能损失该模型在微调时采用了独特的自蒸馏机制（self-distillation ），从而进一步提高了计算效率，而性能损失却最小。1、Introduction提出了一种实用的速度可调BERT模型，即FastBERT，也就是速度可以自己调节，速度越快，效果越差

2020-08-02 16:26:59 3141 1

原创深度学习中的Normalization

1、为什么要 Normalization首先，在机器学习中，一般希望输入的数据是独立同分布的，独立即特征之间不相关，同分布即特征服从同一个分布。然后，深度神经网络涉及到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化，通过层层叠加，高层的输入分布变化会非常剧烈，这就使得高层需要不断去重新适应底层的参数更新。所以，如果输入数据不服从独立同分布，那么会出现以下几个问题：上层参...

2020-07-17 11:03:33 464

原创 pytorch 判断并替换 nan

判断是否有 nantorch.any(torch.isnan(a))利用 torch.where() 函数替换所有 nanwhere() 函数有三个输入值，第一个是判断条件，第二个是符合条件的设置值，第三个是不满足条件的设置值。a = torch.Tensor([[1, 2, np.nan], [2, np.nan, 4], [3, 4, 5]])a = torch.where(torch.isnan(a), torch.full_like(a, 0), a)...

2020-05-19 17:42:38 20875 1

原创 LSTM结构

下面这个图是我很久前做的一个ppt，忘记从哪截的图，侵删：

2019-12-01 19:35:02 139

原创《AHNG: Representation learning on attributed heterogeneous network（2019-Elsevier）》

AbstractNetwork Embedding 的目的是将节点编码到一个低纬空间中，同时保留网络的 structure 和 properties，大多现有的工作都致力于homogeneous or heterogeneous plain networks。1、IntroductionAHNG 利用两层神经网络来编码各种属性，并保留了 structure and semantic info...

2019-11-28 20:54:38 2700

原创 pytorch 损失函数

这里只整理 pytorch 中常见的损失函数，便于自己查阅。BCELoss二分类用的交叉熵，用的时候需要在之前加一层 Sigmoid 函数，因为是二分类的话，只有正例和反例，且两者的概率和为 1。所以离散的形式可以写成：loss(xi,yi)=−wi(yilog⁡xi+(1−yi)log⁡(1−xi))loss(x_i, y_i) = -w_i(y_i\log{x_i} + (1-y_i)\...

2019-11-28 17:24:53 127

原创 Seq2Seq中的Attention

公式这篇博客主要讲基础的 seq2seq 中 attention 机制：输入：X=（）X = （）X=（）

2019-10-29 23:41:45 193

原创《Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model（ACL-2019）》论文阅读

前言论文地址：https://arxiv.org/pdf/1906.01231.pdf代码：https://github.com/lancopku/Graph-to-seq-comment-generationAbstract本文要解决的是通过文章生成评论，对与传统 encoder-decoder 的模型来说，文章通常过长，所以作者提出一个 Graph-to-Sequence 的模型来...

2019-10-29 22:11:37 2739 12

原创《Graph Convolutional Networks for Text Classification（AAAI-2019）》论文阅读

乱七八糟先写在这作者提出用 GCN 来做文本分类在整个语料集上构建图，将 word 和 document 作为图中的 node，利用 co-occurrence 信息来构建 edge，然后将文本分类问题看作是 node 分类问题。Introduction本文是解决分类任务的，作者通过词与文章的共现信息和 TF-IDF 权重和互信息权重两个贡献点：提出了使用图神经网络来解决文本分类...

2019-10-28 20:10:33 3045

原创 pytorch Tensor 与 tensor

TensorTensor 是 pytorch 的一个class类，不同的数据类型对应不同的 Tensor 类，一共有九种：

2019-10-20 11:51:36 237

原创 Transformer

前言transformer网上的资料已经非常多了，这里主要是做笔记，仅对自己可见。self-attention先说self-attention，read / writeread onlyread / writeread onlystore the dataclient1SVN serverclient2client3client4...sharedrive...

2019-10-19 15:32:40 269

原创 ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory

问题我有两个服务器，都碰到过类似的问题，导入tensorflow是报错：ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory。解决的方法也是类似的。解决方法个人环境：cuda: 10 + tensorflow：1.13.1报错：ImportError: libcu...

2019-10-12 09:58:06 179

原创 python安装opencc包失败

安装参考这里：https://www.jianshu.com/p/a2a81c201a3fpip install opencc-python-reimplemented亲测有效。

2019-09-26 11:23:48 2582 1

原创解决bpemb包无法下载language model

解决方式首先你得确认你的需要下载的包的确存在。我在使用bpemb包的时候，发现它无法自动下载模型，报了一个SSLError，就在这记录一下，修改 lib\site-packages\bpemb\util.py (可以直接从它报的错找到这个文件路径)下的文件：req = requests.get(url, stream=True)修改为：req = requests.get(url,...

2019-09-12 10:06:27 351

原创强化学习系列之 Proximal Policy Optimization（PPO）

1、前言Proximal Policy Optimization（PPO）是 Policy Gradient 的一种变形，关于 Policy Gradient 有兴趣的同学可以去看我另一篇博：强化学习系列之Policy Gradient在 Policy Gradient 中，我们知道，每一次更新，我们都需要 sample 很多 data，更新后，这些 data 就没有用了，Proximal P...

2019-09-10 16:22:12 1599

原创重要性采样（Importance Sampling）

重要性采样是用一个新的采样分布来代替原有的采样分布，使得采样更加容易或高效。Ex∼p[f(x)]=∫f(x)p(x)dx=∫f(x)p(x)q(x)q(x)dx=Ex∼q[f(x)p(x)q(x)]\begin{aligned}E_{x \sim p}[f(x)] &= \int f(x)p(x)dx\\\\ &= \int f(x) \frac{p(x)}...

2019-09-10 09:18:03 802

原创极大似然估计与交叉熵

前言关于极大似然估计和交叉熵我就不介绍了，有兴趣的可以看我其他的博客，我这里只讲他们的联系。公式现有一个真实的分布 P(x)P(x)P(x)，现在为了减小模型的概率分布 Q(x;θ)Q(x;\theta)Q(x;θ) 与真实分布P之间的差异，使用最大似然：θMLE=argmax⁡∏i=1mQ(xi;θ)=argmax⁡∑i=1mlog⁡Q(xi;θ)≈argmax⁡Ex∼P(x)[log⁡...

2019-09-09 16:18:26 3190 1

原创机器学习系列之最大后验估计（MAP）

绪论假如我们有一个任务；已知数据和模型，来推测模型的参数。解决该问题，一般有两类方法：极大似然估计与最大后验估计，关于极大似然估计，可以看我这篇博客：机器学习系列之极大似然估计（MLE）。例子我们还是拿抛硬币来举例，假如现在有一个不规则的硬币，我们实验抛了10次，结果10次全部是正面。我们记硬币朝上的概率为 θ\thetaθ 。如果按照极大似然估计的方法来求解，似然函数为：L(θ)=C10...

2019-09-05 17:30:03 1101

原创机器学习系列之极大似然估计（MLE）

绪论在统计学中，极大似然估计（Maximum Likelihood Estimation）是用来估计模型参数的一种方法，就是利用已知样本的结果信息，反推出最有可能导致这样结果的模型参数值。一般情况下，我们用 θ\thetaθ 来表示模型的参数，所以解决问题的本质就是求θ\thetaθ。举例1现在假设有一枚不均匀的硬币，然后我们做了100次实验，一共60次正面，40次反面；我们设 θ\thet...

2019-09-04 16:47:06 877

原创强化学习系列之Policy Gradient

1、前言坑先挖这，后面来写

2019-09-03 20:21:04 439

原创 Ubuntu18.04安装CUDA

折腾了一天，看了很多博客，终于把CUDA装好了，所以在这里综合记录一下。安装驱动先去官网下载驱动，中文网站为：https://www.geforce.cn/drivers。如下图所示选择你要下载的驱动：把主板的Security Boot 关闭，华硕主板的 fast boot 关闭。打开终端，删除旧的驱动。sudo apt-get purge nvidia*禁用自带的nouveau n...

2019-09-02 20:40:39 1266

原创机器学习系列之蒙特卡罗树搜索（MCTS）

蒙特卡罗树搜索（MCTS）蒙特卡罗树搜索，即 Monte Carlo tree search（MCTS）是一种启发式搜索算法。现在我们来考虑下围棋这个游戏，我们用经典的Minmax搜索会碰到两个问题：每一步可能有很多中走法，这就导致搜索树太广。要走很多步游戏才结束，也就是说搜索树特别深。这时，蒙特卡罗树搜索就能发挥作用，它不遍历整个搜索树，也即找到的不是最优解，但是是一个解决该问题的方...

2019-09-02 19:01:01 1794

原创蒙特卡罗方法

蒙特卡罗算法首先蒙特卡罗算法并不是一种算法的名称，而是一类随机方法的统称。例子一个经典的例子就是计算圆周率π\piπ，如下图所示，我们想要计算圆周率，只需要在图上随机取很多点，然后利用落在圆上点的个数来计算出圆周率。![计算圆周率](https://img-blog.csdnimg.cn/20190902103745634.png?x-oss-process=image/watermar...

2019-09-02 10:50:34 504

原创 Python中的*args和**kwargs

前言Python传入可变可数参数时用到。args的全称是arguments，kwargs的全称是keyword arguments。看名字就知道后者比前者多了一个关键字。最常见的用法：传参数*args它可以传入任意数量的参数，直接看代码：def func_args(*args): for arg in args: print(arg) func_...

2019-08-27 14:05:54 521

原创熵、KL散度、交叉熵

绪论最近在做实验的时候，发现机器有些基本知识真的很重要，所以就把机器学习的内容重新整理一下，本文仅从机器学习的角度来讲解熵、KL散度和交叉熵。熵简单来说熵就是描述系统的不确定性的，就是说，一个事件越确定，那么它的熵就约小，越不确定熵就越大。熵的定义为：H(x)=−∑i=1np(xi)log⁡p(xi) H(x) = -\sum_{i=1} ^n p(x_i)\log p(x_i)H(x)=−...

2019-08-10 23:31:51 257

原创 Ubuntu命令

基本命令ls 查看当前文件夹下内容 -a：显示隐藏文件 -l：以列表方式显示 -h：配合-l显示文件大小pwd 查看当前所在文件夹cd 切换文件夹 ~：回到家目录 ..：上级目录touch 创建文件mkdir 创建目录rm 删除文件 -f：强制删除 -r：递归删除目录下的内容clear 清屏拷贝和移动文件cp 复制文件或目录 -i：覆盖文件前提示...

2019-08-09 16:06:53 759

原创 Anaconda管理环境与包

Anaconda的使用已经有很多博客了，这篇主要是写给自己看，偶尔忘记的时候以便查阅。下载与安装这里以Ubuntu为示例，可选择最新的包。wget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.shbash Anaconda3-5.0.1-Linux-x86_64.shUbuntu下安装好后重启一下终端就行...

2019-08-06 20:49:22 783

原创 Python谷歌翻译（防封版）

前言最近手头工作需要调用一下谷歌翻译，然后在网上找了一些方法，无奈发现都会被封。最后我写了个爬虫用浏览器模拟来模拟操作，这样速度较慢，但是不会被封。方法一直接调用googletrans包，该方法简单粗暴，但是会被封ip，小量数据可用。示例：from googletrans import Translatortranslator = Translator()print(translat...

2019-08-01 16:46:16 6522 1

原创极简版frp内网穿透

准备工作很简单，只需要有一台具有公网ip的服务器，随便在哪租都行。服务器配置在这里下载对应版本的包，我这里是以Ubuntu16.4作为演示的。下载解压后只需要配置一下frps.ini文件即可。下载包：wget https://github.com/fatedier/frp/releases/download/v0.27.1/frp_0.27.1_linux_amd64.tar.gz ...

2019-08-01 15:16:35 3515

空空如也

空空如也