nlp
文章平均质量分 95
sigmeta
Peking University / Microsoft
展开
-
windows下编译的fasttext 0.9.2 命令行工具
基于官方代码在windows下编译的命令行工具,fasttext 0.9.2最新release版本,支持autotune等功能。csdn下载链接:fasttext0.9.2windowscommandlinetools-机器学习文档类资源-CSDN下载或到github免费下载,大家可以帮忙star一下~:sigmeta/fastText-Windows: fastText built for Windows (github.com)...原创 2020-12-30 17:11:32 · 387 阅读 · 0 评论 -
How to Fine-Tune BERT for Text Classification 论文笔记
How to Fine-Tune BERT for Text Classification 论文笔记论文地址:How to Fine-Tune BERT for Text Classification?BERT在NLP任务中效果十分优秀,这篇文章对于BERT在文本分类的应用上做了非常丰富的实验,介绍了一些调参以及改进的经验,进一步挖掘BERT的潜力。实验主要在8个被广泛研究的数据集上进行,在...原创 2019-11-13 23:35:07 · 3088 阅读 · 0 评论 -
使用NLTK对英文文章分句,避免缩略词标点符号干扰
对于英文语料,我们想要获得句子时,可以通过正则或者NLTK工具切分。例如,NLTK:from nltk.tokenize import sent_tokenizedocument=''sentences=sent_tokenize(document)NLTK会根据“.?!”等符号切分。但是当句子中含有缩写词时,可能会产生错误的切分:sent_tokenize('fight a...原创 2019-06-10 11:45:43 · 3900 阅读 · 0 评论 -
Wikipedia corpus英文语料处理,获得原文
我们在预训练word vector或其他预训练任务时,需要大量的语料数据,Wikipedia开放了英文语料,大约11G:wiki英文语料下载链接该语料库是.bz2格式,但是不能直接解压,需要使用工具处理,我们介绍两种常用的处理工具,gensim和wikiextractor。Gensimgensim提供了处理工具,但是只能够获得文章的词列表,丢失了段落句子以及标点符号。from ...原创 2019-06-10 11:34:28 · 4641 阅读 · 0 评论 -
windows下安装使用fairseq框架
最近,Facebook又开源了fairseq的PyTorch版:fairseq-py。大家从最新的文章可以看出,用CNN来做机器翻译,达到顶尖的准确率,速度则是RNN的9倍;同时,Facebook还开放了seq2seq学习工具包fairseq的Torch源代码和已训练的系统。fairseq-py优势与介绍fairseq-py包含论文中描述的全卷积模型,支持在一台机器上用多GPU进行训练,以...原创 2019-01-07 21:56:36 · 13647 阅读 · 13 评论 -
QANet 论文笔记
QANet 论文笔记文章目录QANet 论文笔记摘要简介模型1. Input embedding layerword embeddingcharacter embedding2. Embedding encoder layer(1) position encoding(2) depthwise separable convolutions(3) self-attention(4) feed-f...原创 2018-12-04 17:54:47 · 1434 阅读 · 0 评论 -
Attention Is All You Need 论文笔记
Attention Is All You Need 论文笔记本文主要讲述Self-Attention机制+Transformer模型。自己看过论文与其他人文章的总结,不是对论文的完整翻译。论文原文翻译可看这篇,翻译质量还可以。关于Attention的讲解可以看这里:Visualizing A Neural Machine Translation Model (Mechanics of S...原创 2018-12-04 16:26:35 · 3465 阅读 · 1 评论 -
最大熵马尔可夫模型MEMM
信息与熵熵(信息熵)可被认为是系统不确定性(混乱程度)的度量,熵值越大,系统越混乱。一个X值域为{x1, ..., xn}的随机变量的熵值H定义为:其中,E 代表了期望函数,而I(X)是X的信息量(又称为信息本体),熵是随机变量的各值域概率及其信息量积的加总。信息量是用来衡量单一随机变量发生时所含信息的的多寡,随机变量发生的概率越低,其发生后消除系统不确定性的能力越强,所含信...转载 2018-11-02 11:25:17 · 2306 阅读 · 0 评论 -
RNN & LSTM 网络结构及应用
http://www.jianshu.com/p/f3bde26febed/这篇是 The Unreasonable Effectiveness of Recurrent Neural Networks(by Andrej Karpathy,Stanford的Li Fei-Fei的博士生。文章介绍了RNN和LSTM,同时也介绍了RNN取得的各种瞩目成果。)以及Understanding LS...转载 2018-10-09 23:30:35 · 2312 阅读 · 0 评论 -
使用SimHash进行海量文本去重
阅读目录1. SimHash与传统hash函数的区别2. SimHash算法思想3. SimHash流程实现4. SimHash签名距离计算5. SimHash存储和索引6. SimHash存储和索引7. 参考内容 在之前的两篇博文分别介绍了常用的hash方法([Data Structure & Algorithm] Hash那点事儿)以及局部敏感hash算法([Algorithm] 局...转载 2018-07-13 15:12:14 · 1420 阅读 · 0 评论