NLP
芋艿ashes
这个作者很懒,什么都没留下…
展开
-
基于反馈的Query改写:你说过的,我才最懂
一、前言本文对之前做过一段时间的Query改写(纠错,本文不严格区分这两种叫法)做一些总结,算法原理可以参考亚马逊的这篇论文:Feedback-Based Self-Learning in Large-Scale Conversational AI Agents。二、方法以前做Query纠错的一些通用思路是:基于大规模的线上日志训练一个相对置信的语言模型,基于相似度、编辑距离等方式挖掘一批高频词汇改写对,譬如说对于“伴奏兄弟”-->“半吨兄弟”这么一个改写对,原始ASR识别后的query原创 2020-12-30 10:41:00 · 1554 阅读 · 0 评论 -
多标准中文分词:你需要的小trick
一、前言作为NLP领域中经典任务之一,分词几乎是其他所有NLP任务的基础,开展下游NLP任务之前,往往需要先对文本进行分词。多标准分词(Multi-criteria Chinese word segmentation, MCCWS)的任务目的,即是为了利用多种标准分词结果的共性知识,来提升单一分词标准的标注效果。本文提出的模型,可以根据分词标准指示,基于单一模型,给出不同标准的分词结果。二、模型2.1 模型细节从现在这个时间点看,模型相对来看比较简单(这也许是中了EMNLP Findings原创 2020-12-30 10:32:35 · 342 阅读 · 0 评论 -
跨语言评测数据集之XNLI介绍
一、前言:对于跨语言理解及与稀缺语言相关的迁移学习而言,一个评测数据集不可或缺。2018年,Facebook的提出了XNLI(Cross-Lingual Natural Language Inference)这个数据集,旨在提供一个统一的评测数据集以方便相关研究。在论文中,Facebook还提出包括多个机器翻译任务、词袋及LSTM编码器在内的baseline。关于XNLI更多内容可参考Face...原创 2020-02-23 20:59:26 · 5872 阅读 · 2 评论 -
flair embedding--《Contextual String Embeddings for Sequence Labeling》阅读笔记
这篇文章主要是提出了一种embedding方法。首先作者介绍了现有sota的embedding方法:classical word embedding,在超大语料上预训练; character-level features,在领域内的数据集上训练,以捕捉任务相关的subword特性; 情境化的embedding,捕捉一些多义词和任务相关的词;作者提出了一种上下文字符embedding...原创 2019-11-24 17:48:25 · 1045 阅读 · 0 评论 -
句子相似度计算模型
前言:句子相似度计算,结合蚂蚁的竞赛来进行模型的分析,加深自己的理解基于bilstm的句子相似度计算模型首先是得到句子对应的双向的lstm后的表示,在这里,首先使用embedding_lookup函数找到句子中对应分词的embedding,在将分词list扔进前后向的lstm中,分别得到前向和后向的编码,再使用tf.nn.bidirectional_dynamic_rnn将前后向lstm编码...原创 2019-10-28 23:03:06 · 1428 阅读 · 0 评论 -
sequence labeling笔记(一)
最近一直在做序列标注的工作,记录一下在工作中读的一些论文,今天记录这两篇,分别是《Morphosyntactic Tagging with a Meta-BiLSTM Model over Context Sensitive Token Encodings》和《Hierarchically-Refined Label Attention Network for Sequence Labeling》...原创 2019-10-21 00:15:57 · 1992 阅读 · 0 评论 -
隐马尔科夫实现中文分词(Python3实现)
前言:隐马尔科夫的相关概念就不多说了,就是一个三元组(A,B,Pi),分别表示转移概率,发射概率和初始状态概率。首先是语料库的训练部分:#!/usr/bin/python#-*-coding:utf-8import sysimport mathimport pdbstate_M = 4word_N = 0A_dic = {}B_dic = {}Count_dic = {原创 2018-01-22 21:07:33 · 2974 阅读 · 5 评论