NLP
文章平均质量分 56
lizzy05
这个作者很懒,什么都没留下…
展开
-
英文关键词提取之RAKE算法
转载自https://zhikaizhang.cn/RAKE算法是由2010年的论文Automatic keyword extraction from individual documents提出的,比TextRank算法效果更好,原repository链接是https://github.com/aneesha/RAKE,已经很久没有维护了,本文重新整理了代码,做了以下3个工作:使其支持...转载 2020-04-08 20:19:06 · 4083 阅读 · 0 评论 -
解决ValueError: Variable model/wpe already exists,reuse=True or reuse=tf.AUTO_REUSE in VarScope
训练gpt2时出现的问题,报错信息如下图所示:详细信息为:ValueError: Variable model/wpe already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? Originally defined at:解决方法:每次训练前...原创 2019-05-27 15:20:43 · 1948 阅读 · 2 评论 -
Lecture 09 & 10 Bayesian——Hinton课程
Link:Neural Networks for Machine Learning -多伦多大学Link:Hinton的CSC321课程笔记Lecture 09Lecture 10提高泛化能力介绍不同的方法去控制网络的数据表达能力,并介绍当我们使用这样一种方法的时候如何设置元参数,然后给出一个通过提早结束训练来控制网络能力(其实就是防止过拟合)的例子。所以...转载 2019-06-21 01:12:31 · 205 阅读 · 0 评论 -
Lecture 01-05 Basic —— Hinton课程
转载自https://www.cnblogs.com/jesse123/p/7131929.htmlLink:Neural Networks for Machine Learning -多伦多大学Link:Hinton的CSC321课程笔记1Link:Hinton的CSC321课程笔记2一年后再看课程,亦有收获,虽然看似明白,但细细推敲其实能挖掘出很多深刻的内容;以下为在线...转载 2019-06-22 14:59:08 · 379 阅读 · 0 评论 -
概率语言模型3——训练工具汇总
转载自https://www.itread01.com/content/1547467935.html傳統演算法1) BerkeleyLM 是用java寫的,號稱跟KenLM差不多,記憶體比srilm小https://github.com/adampauls/berkeleylm2)MITLM (The MIT Language Modeling toolkit) 引數優化做...转载 2019-07-03 14:16:22 · 679 阅读 · 0 评论 -
BERT模型深度解析
转载自: https://blog.csdn.net/qq_39521554/article/details/83062188github:NLP-BERT--Python3.6-pytorch一、前言 去年谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出...转载 2019-07-26 01:48:27 · 5939 阅读 · 0 评论 -
Bert资源整理
转载自:https://mp.weixin.qq.com/s/q5OyrIycfN4fjQ33uSRmEA整理一下BERT相关的资源,包括Paper, 代码和文章解读。1、Google官方:1)BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding一切始于10月Google祭...转载 2019-07-26 01:51:23 · 793 阅读 · 0 评论 -
FlyAI平台竞赛入门记录
FlyAI算法竞赛平台官方介绍如下:FlyAI是隶属于北京智能工场科技有限公司旗下,为AI开发者 (深度学习)提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,样例所使用开发框架涉及TensorFlow、Keras、PyTorch. 支持算法能力变现以及快速的迭代算法模型。挑战者,都在FlyAI!四大特点:1. 高质量的数据集、多领域的开源项目案例...原创 2019-05-06 11:26:13 · 4387 阅读 · 0 评论 -
bert-embedding 安装及使用入门
安装pip install bert-embedding#如果要使用GPUpip install mxnet-cu92 Note:1. 安装过程中如果遇到WinError 5的权限问题,需要添加--user参数,即pip install --user mxnet-cu922. 若要支持cuda10.0需使用命令 pip install mxnet-cu100安装3. 验证...原创 2019-03-28 22:21:00 · 8689 阅读 · 6 评论 -
Stanfordnlp 安装及使用
简介 StanfordCoreNLP提供了一系列用于自然语言的技术工具。它可以给出不管是公司名还是人名亦或标准化日期、时间和数量等单词的基本形式,词性等。如下图所示它还可以根据短语和句法依存关系标记句子结构,指明哪些名词短语表示相同的实体,指明情感,提取实体及之间的特定或开放类关系,获取名人名言等等。StanfordCoreNLP适用于以下情形:一个具有广泛语法分析工具集成的NLP...原创 2019-02-17 23:46:11 · 21830 阅读 · 18 评论 -
NLTK结合stanfordnlp工具包使用方法总结
简述NLTK 是一款著名的 Python 自然语言处理(Natural Language Processing, NLP)工具包,在其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NL...原创 2019-03-06 01:20:22 · 9545 阅读 · 7 评论 -
Stanfordnlp中TypeError: argument of type 'NoneType' is not iterable 问题解决方法
问题描述:用StanfordSegmenter进行中文分词,输入如下代码后报错TypeError: argument of type 'NoneType' is not iterablefrom nltk.tokenize import StanfordSegmentersegmenter = StanfordSegmenter(path_to_sihan_corpora_di...原创 2019-03-06 11:42:35 · 39359 阅读 · 0 评论 -
解决Graphviz中文乱码问题
问题描述:使用Graphviz绘制中文依存句法分析树的时候发现输出的中文结点乱码,不能正常显示中文,如下图所示:分析:Graphviz绘图时所使用的语言叫作"dot"。使用dot语言,第一步就是决定要画哪种图。图分两种:有向图与无向图。有向图以digraph声明图片,节点间的关系写为"->"; 无向图以graph声明图片,节点间的关系可以写为"--"。画图时需要...原创 2019-03-14 19:14:21 · 17939 阅读 · 7 评论 -
Speech and Natural Language Processing相关资源列表
Refer tohttps://github.com/edobashira/speech-language-processingA curated list of speech and natural language processing resources. Other lists can be found in thislist. If you want to contribute ...转载 2019-03-04 20:55:40 · 741 阅读 · 0 评论 -
编码器—解码器和注意力机制
在基于词语的语言模型中,我们使用了循环神经网络。它的输入是一段不定长的序列,输出却是定长的,例如一个词语。然而,很多问题的输出也是不定长的序列。以机器翻译为例,输入是可以是英语的一段话,输出可以是法语的一段话,输入和输出皆不定长,例如英语:They are watching.法语:Ils regardent.当输入输出都是不定长序列时,我们可以使用编码器—解码器(encod...原创 2019-03-19 00:39:04 · 10226 阅读 · 1 评论 -
词向量 — word2vec
自然语言是一套用来表达含义的复杂系统。在这套系统中,词是表义的基本单元。在机器学习中,如何使用向量表示词?顾名思义,词向量是用来表示词的向量,通常也被认为是词的特征向量。近年来,词向量已逐渐成为自然语言处理的基础知识。为何不采用one-hot向量我们在循环神经网络中介绍过one-hot向量来表示词。假设词典中不同词的数量为NN,每个词可以和从0到N−1N−1的连续整数一一...原创 2019-04-09 22:47:50 · 664 阅读 · 0 评论 -
词向量 — GloVe和fastText
本文介绍两种词向量:它们分别是2014年由Stanford团队发表的GloVe和2017年由Facebook团队发表的fastText。GloVeGloVe使用了词与词之间的共现(co-occurrence)信息。我们定义XX为共现词频矩阵,其中元素xijxij为词jj出现在词ii的环境(context)的次数。这里的“环境”有多种可能的定义。举个例子,在一段文本序列中,如果词jj出...原创 2019-03-19 00:44:48 · 910 阅读 · 0 评论 -
StanfordNLP相关资源列表
Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources Contents Tools: Machine Translation, POS Taggers, NP chunking, Sequence...转载 2019-02-17 00:08:28 · 4216 阅读 · 0 评论