NLP
angus_monroe
百无一用的愤青
展开
-
StanfordCoreNLP配置方法
pip install stanfordcorenlp去官网下载CoreNLP解压CoreNLP,得到stanford-corenlp-4.2.0unzip stanford-corenlp-latest.zip简单实用示例:>>> from stanfordcorenlp import StanfordCoreNLP>>> nlp = StanfordCoreNLP('./stanford-corenlp-4.2.0')>>> s .原创 2021-04-08 15:48:21 · 871 阅读 · 0 评论 -
Data Augmentation in NLP
Data Augmentation in NLPWord SubstitutionSynonym-based substitutionWord embedding substitutionMasked language modelTF-IDF-based word substitutionThe basic idea is that words with a low TF-IDF score are meaningless, so they can be r...转载 2020-07-15 15:09:05 · 361 阅读 · 0 评论 -
How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for
How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response GenerationAbstract本文调研了各种nlg系统的metric近期的nlg metric从MT发展而来,本文发现这些metric与人类在Twitt...原创 2019-03-07 20:55:08 · 678 阅读 · 0 评论 -
CS224n学习笔记
CS224n学习笔记CS224n: Natural Language Processing with Deep Learning代码及笔记在 https://github.com/AngusMonroe/CS224n 持续更新原创 2019-02-10 13:59:27 · 372 阅读 · 0 评论 -
Dialogue System Survey
Dialogue System SurveyTask-orientedNon-task-orientedDiscussionTask-oriented dialogue system目的:帮助用户完成某些特定任务,比如查找产品、客服等特点:通常需要在外部知识库上进行查询Pipeline Methods基于管道的面向任务的对话系统的四个组成部分:自然语言理解(NLU):...原创 2018-11-05 09:28:32 · 1424 阅读 · 0 评论 -
Hierarchical Recurrent Encoder-Decoder
Hierarchical Recurrent Encoder-DecoderBuilding End-to-End Dialogue Systems Using Generative Hierarchical Neural Network ModelsIntroductionseq2seq的典型方法,用前N-1句话生成第N句话。假如说现在A, B对话内容是:a1,b1,a2,b2a1,b1,...原创 2018-10-21 11:01:42 · 1411 阅读 · 0 评论 -
主题感知的响应生成——TA-Seq2Seq model
主题感知的响应生成——TA-Seq2Seq《Topic Aware Neural Response Generation》概述本文介绍了一种将topic model与seq2seq的方法,主题来自于预训练LDA模型,为了增加主题词出现在回答中的可能性,该模型通过添加额外的概率项来偏向整体分布来修改主题词的生成概率。该模型利用主题来模拟人类的先验知识,指导他们在对话中形成信息性和有趣的反应,...原创 2018-10-20 00:37:19 · 1044 阅读 · 0 评论 -
对话系统调查:最新进展与新前沿
对话系统调查:最新进展与新前沿paper:A Survey on Dialogue Systems: Recent Advances and New Frontiers该paper来自于京东数据团队,论文引用了近124篇论文,是一篇综合全面的介绍对话系统的文章简介通常将现有的对话系统划分为面向任务和非任务(聊天机器人)的模型传统的对话系统处理方法是将对话响应视为管道,使用手...原创 2018-08-25 10:35:56 · 2175 阅读 · 0 评论 -
对话响应生成的无监督评估指标的实证研究
对话响应生成的无监督评估指标的实证研究paper:How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation简介这个文章的工作:指出现存的metric的缺点,提出一个更好的metric的...原创 2018-08-25 09:52:23 · 853 阅读 · 0 评论 -
序列标注中的几种标签方案
标签说明标签方案中通常都使用一些简短的英文字符[串]来编码。标签是打在token上的。对于英文,token可以是一个单词(e.g. awesome),也可以是一个字符(e.g. a)。对于中文,token可以是一个词语(分词后的结果),也可以是单个汉字字符。为便于说明,以下都将token试作等同于字符。标签列表如下:B,即Begin,表示开始I,即Intermedi...转载 2018-08-14 10:11:37 · 2953 阅读 · 2 评论 -
GloVe学习笔记
GloVe是一种用于获取词汇向量表示的无监督学习算法。 对来自语料库的聚合全局字词同现统计进行训练,并且所得到的表示展示了词向量空间的有趣的线性子结构。官网主页地址:https://nlp.stanford.edu/projects/glove/Github:https://github.com/stanfordnlp/GloVe论文下载地址:https://nlp.stanford....原创 2018-04-20 16:45:39 · 2283 阅读 · 0 评论 -
Python中gensim库word2vec的使用
Python中gensim库word2vec的使用:pip install gensim安装好库后,即可导入使用:1、训练模型定义from gensim.models import Word2Vec model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0....原创 2017-08-09 16:23:52 · 19547 阅读 · 4 评论 -
Python3正则表达式基础
正则表达式本节我们看一下正则表达式的相关用法,正则表达式是处理字符串的强大的工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。当然对于爬虫来说,有了它,我们从HTML里面提取我们想要的信息就非常方便了。实例引入说了这么多,可能我们对它到底是个什么还是比较模糊,下面我们就用几个实例来感受一下正则表达式的用法。我们打开开源中国提供的正则表达式测试工具http://too...转载 2018-02-07 19:19:49 · 351 阅读 · 0 评论 -
python_jieba分词的使用
# coding: utf-8# ###jieba特性介绍# 支持三种分词模式:# 精确模式,试图将句子最精确地切开,适合文本分析;# 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;# 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。# 支持繁体分词。# 支持自定义词典。# MIT 授权协议。# ###分词...转载 2017-07-29 14:18:36 · 503 阅读 · 0 评论