NLP
文章平均质量分 87
纽约的自行车
这个作者很懒,什么都没留下…
展开
-
一文解释Micro-F1, Macro-F1,Weighted-F1
本文用通俗易懂的形式解释多分类任务中的micro-f1,macro-f1,weighted-f1。前提需要知道基本的概念如精确率、召回率。翻译 2022-07-02 13:07:13 · 14589 阅读 · 3 评论 -
基于问答对的问答系统方案设计
基于问答对的问答系统方案设计1. 前言2. 方案2.1 召回2.1.1 关键词匹配2.1.2 问题分类2.1.3 相似度计算2.2 粗排2.3 细排1. 前言 基于问答对的问答系统的核心是当用户输入一个问题的时候,首先要找到跟这个问题最相近的已经存储在库里的问题,然后直接返回相应的答案即可。其本质是一种基于检索的问答,与常规的关键词检索最大区别在于:问答对的问答是从语义角度从数据库中检索答案,而关键词检索仅仅是从关键词的角度进行检索。 假设我们的库里面已有存在以下几个<问题,答案>:原创 2021-11-30 21:03:31 · 3849 阅读 · 0 评论 -
中文短文本关键词抽取方案
目录1. 前言2. 数据3. 方案3.1 SIFRank3.2 NegSamplingNER4. 代码1. 前言 本文提出一种中文短文本关键词抽取方案,适用于无监督语料场景。 无监督关键词抽取算法虽然无需标注语料,但是效果一般。有监督学习方法效果好但是需要标注数据,很多业务场景下并没有标注好的数据。能否结合无监督学习方法和有监督学习方法的长处,用无监督方法标注语料,然后用于训练有监督方法?为此我们用实验证明了该方案是可行的,文末给出代码地址。2. 数据 我们选用联通问答数据集中的问题数据,从原创 2021-11-29 21:18:39 · 3543 阅读 · 13 评论 -
脏话文本检测方案
目录1. 场景2. 方案3. 数据增强4. 代码1. 场景 在问答系统中用户问题可能存在违规情况,包含涉政、色情、辱骂文字的文本视为违规文本。本文提出一种违规文本检测方案, 本方案仅限于判断文本是否包含违规内容,属于文本分类问题。2. 方案 方案流程图如下所示。违规词和疑似违规词由人工收集,文本中匹配到违规词则识别为违规文本,例如“煞笔”。文本匹配到疑似违规词或者fasttext模型判断为违规文本则进一步由RoBERTa模型判断。3. 数据增强 为了防止被系统屏蔽,用户通常会魔改违规用语原创 2021-11-21 14:06:19 · 1849 阅读 · 0 评论 -
信息熵、相对熵与交叉熵
目录1. 信息熵2. 相对熵3. 交叉熵4. 交叉熵与softmax1. 信息熵 熵是一个信息论中的概念,表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。信息熵公式如下:H(p)=−∑i=1np(xi)logp(xi)H(p)=-\sum_{i=1}^{n}{p(x_i)logp(x_i)}H(p)=−i=1∑np(xi)logp(xi)2. 相对熵 相对熵又称KL散度,用于衡量对于同一个随机变量x的两个分布p(x)p(x)p(x)和q(x)q(x)q(x)之间的差异原创 2021-09-24 14:27:33 · 426 阅读 · 0 评论 -
关系抽取技术小结
目录0. 前言1.有监督神经网络方法2.少样本学习3.远程监督参考文献0. 前言 关系抽取是信息抽取领域的重要分支,是构建知识图谱的重要技术环节。本次调研采用文献调研法。收集顶会上发表的论文,然后按照研究方向归纳论文。本文介绍了关系抽取领域的三个主流研究方向:有监督学习、少样本学习和远程监督学习。 关系抽取(Relation extraction,RE)就是从非结构化文本中提取实体之间的关系。依据实体是否在文本中被标记,关系抽取方法可分为联合抽取和流水线式抽取。联合抽取是指从文本中完成实体识别和关原创 2021-09-18 14:57:52 · 3369 阅读 · 0 评论 -
KBQA技术小结
这里写目录标题前言模板法语义解析信息检索总结参考文献前言 KBQA(Knowledge Base Question Answer)是指将自然语言转换成知识库查询语句。KBQA方法主要有三类:模板法 [1,2]、语义解析法 [3,4,5]和信息检索法[1,6,7]。本文简要介绍每种方法的常见方案。模板法 基于模板的KBQA旨在利用预定义的模板匹配问题进而得到形式化查询。通常由离线和在线两个过程组成。离线时,主要根据问答历史建立模板库。具体地,归纳总结以往回答过的问题,构造出问题模板与对应的查询模板原创 2021-09-18 09:50:48 · 884 阅读 · 0 评论 -
知识图谱发展历程简介
目录1.万维网简介2.语义网简介3.知识图谱简介4. 参考文献1.万维网简介 1990年,Tim Berners-Lee在欧洲粒子物理实验室(CREN)实现了万维网(WWW)的原型系统。Tim认为万维网是一个包含相互链接的超文本文件系统,这些文件可以通过互联网访问。为此,他设计了超文本标记语言(HTML)用来书写万维网中的文件。为了统一地标识万维网中的文件,Tim提出了通用文件标识符(UDI),后来UDI演变为统一资源定位符(URL),逐渐地URL被统一资源标识符(URI)代替。URI可以标识任何资源原创 2021-09-17 14:23:02 · 2539 阅读 · 0 评论 -
少样本 N-way K-shot
在少样本分类论文中,经常会遇到N-way K-shot概念。很多初次接触少样本领域的人虽然能很快知道N-way是指N个类,K-shot是指每个类的样本数量,然后再结合对大规模监督学习的认识,自然的就认为N-way K-shot就是指训练集中有N个类别,每个类别下有K个样本。这样一算,训练集只有N* K个样本,似乎符合少样本的意思。但是在看论文源代码时才会发现,原来训练集的类别数和样本数都远远大于N-way K-s原创 2021-06-24 17:20:58 · 6469 阅读 · 21 评论 -
关系抽取之远程监督方法总结
目录前言1. 远程监督关系抽取开山之作1.1 介绍1.2 训练过程1.2.1 数据标注方法1.2.2 训练方法1.3 测试过程1.4 思考1.5 总结2. PCNN2.1 介绍2.2 模型结构2.3 实验结果3. 句子级别注意力3.1介绍3.2 模型结构3.2.1 句子编码器3.2.2 注意力层3.3 实验结果前言 本文总结关系抽取中的远程监督方法,解读三篇重要论文。第一篇是开山之作,第二篇解决了第一篇中的数据标注错误问题,第三篇解决了第二篇中的特征遗失问题。但是从最终的测试结果来看,论文的效果离落地原创 2021-01-08 19:36:28 · 4598 阅读 · 0 评论 -
NLP系列——Transformer源码解析(TensorFlow版)
这篇博客是对transformer源码的解析,这个源码并非官方的,但是比官方代码更容易理解。 采用TensorFlow框架,下面的解析过程只针对模型构建过程,其训练/测试等其他代码忽略。 解读顺序按照model.py中函数顺序解读。 文末会给出代码地址。文章结构如下:__init__()encode()decode()代码地址1. _init_() 模型初始化,主...原创 2019-12-03 15:37:35 · 3747 阅读 · 0 评论