![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP自然语言处理
会飞的小罐子
有趣的灵魂万里挑一
展开
-
NLP自然语言基础(一)
本文是基于寒小阳博主中的NLP系列所记录下的笔记,非常感谢有那么优质的博客,很受用!1.NLP的常见领域:分词,词性标注,命名实体识别,句法分析,语义识别,垃圾邮件识别,拼写纠错,词义消歧,语音识别,音字转换,机器翻译,自动问答……如果对自然语言处理的应用场景不太了解,可以去腾讯的中文语义平台简单玩几个例子就熟悉了。2.NLP的发展现状根据stafford教授Dan Jurafsky的介绍:有些问...原创 2018-06-23 12:30:30 · 2259 阅读 · 0 评论 -
如何将ELMo词向量用于中文
ELMo于今年二月由AllenNLP提出,与word2vec或GloVe不同的是其动态词向量的思想,其本质即通过训练language model,对于一句话进入到language model获得不同的词向量。根据实验可得,使用了Elmo词向量之后,许多NLP任务都有了大幅的提高。论文:Deep contextualized word representationsAllenNLP一共rel...转载 2019-05-29 21:55:17 · 1784 阅读 · 0 评论 -
基于知识图谱的厨房领域问答系统构建
1 厨房领域的问答系统智能厨房主要分为4个部分菜谱.通过问答系统,你可以知道哪一道菜,比如说红烧肉怎么做等等 音乐. 比如,说“我想听一个轻松的音乐” 视频.比如,说我想看《人民的名义》第九集 厨电的控制. 指令式反馈,比如,打开油烟机,打开灶具,类似于一个中控系统整体流程:语音识别. 科大讯飞和思必弛较为出众,目前调用的是科大讯飞的接口 文本纠错. 一、概率模型...原创 2019-05-31 16:28:55 · 1876 阅读 · 1 评论 -
二分类logloss不降的原因及分析
当二分类loss在0.693并且一直不降的时候,就应该意识到模型出问题了,当然可能是你的模型结构出问题或者设置的参数不合适。三个问题,logloss是可以大于1的吗?它的正常范围应该是多少?一般多小的logloss算是好的分类器?logloss可以大于1,但是对于二元分类来说,大于1说明这个模型是比较糟糕。回顾一下loglosslogloss的公式其中n是测试样本的个数,pi为预测...转载 2019-05-12 20:19:42 · 7880 阅读 · 6 评论 -
ELMO小谈
现在谈EMLO,倒是有点食之微味,弃之可惜的意思。2018年,BERT的横空出世撼动了NLP的半壁江山,nlper无不知晓,多项刷榜记录让多数奋战在一线钻研算法的工程师们一刹那觉得自己的努力也仅仅只是感动了自己而已,自然而然,BERT的风光掩盖了ELMO。但是,我个人觉得,从word2vec,glove到ELMO,BERT,ELMO算是一个比较精彩的转折点吧,有着承前启后的作用,于是,今天就来...原创 2019-04-10 19:26:03 · 2203 阅读 · 0 评论 -
基于 bi-LSTM和CRF的中文命名实体识别
follow:https://github.com/zjy-ucas/ChineseNER这里边主要识别的实体如图所示,其实也就主要识别人名PER,机构ORG和地点LOC: B表示开始的字节,I表示中间的字节,E表示最后的字节,S表示该实体是单字节例子:实现架构:1. 读取数据集,数据集共三个文件,训练集,交叉测试集和测试集,文件中每一行包含两个...转载 2019-04-10 21:48:05 · 1259 阅读 · 0 评论 -
中文检索式问答机器人模型
检索式问答机器人最典型的一个例子就是FAQ客服机器人。什么是FAQ呢?简介:在智能客服的业务场景中,对于用户频繁会问到的业务知识类问题的自动解答(以下简称为FAQ)是一个非常关键的需求,可以说是智能客服最为核心的用户场景,基本上来说,就是用户使用智能客服系统,提问了一个业务知识的问题,系统需要在知识库里找到最合适的那一个答案,且一般来说,知识库都是人工事先编辑好的。例子:比如10086的在...原创 2019-04-04 17:20:03 · 4768 阅读 · 1 评论 -
Multihop Atention Networks for QA Matching
文章链接:MAN原作代码地址:pytorch出处:SIGIR’18, July 8-12, 2018, Ann Arbor, MI, USA推荐理由:作者在introduction和related work中把前人的工作介绍得非常详细,诚意满满,至少在我眼里看来并不是在划水,比较适合入门。 作者想法比较新颖,利用动态记忆网络(DMNS)的思想进行建模,同时作者摒弃了在AS任务中用...原创 2019-03-14 15:22:31 · 1209 阅读 · 3 评论 -
char-rnn语言建模模型
参考:https://blog.csdn.net/liuchonge/article/details/71424432https://blog.csdn.net/qq_35647180/article/details/53511429转载 2018-09-05 15:03:28 · 443 阅读 · 0 评论 -
Attention-over-Attention模型
0 前言Attention-over-Attention模型(AOA Reader模型)是科大讯飞和哈工大在2017ACL会议上的《Attention-over-Attention Neural Networks for Reading Comprehension》(论文地址)联合提出的。科大讯飞和哈工大在2016ACL会议上发表的另一篇论文《Consensus Attention-based...转载 2018-08-27 20:58:13 · 3681 阅读 · 0 评论 -
SimHash算法
SimHash算法可计算文本间的相似度,实现文本去重。文本相似度的计算,可以使用向量空间模型(VSM),即先对文本分词,提取特征,根据特征建立文本向量,把文本之间相似度的计算转化为特征向量距离的计算,如欧式距离、余弦夹角等。但这样做的缺点是复杂度会很高。 基于VSM的文本相似度计算,对于小量数据处理是可以的,但对于百度,google这样的搜索引擎,爬虫每天爬取的网页数目大得惊人,为了防止网...转载 2018-08-19 20:39:08 · 3862 阅读 · 0 评论 -
文本匹配:语义相关性
语义相关性,比如搜索,查询词和文档如果关键字不一样,但两者是多词一义,则模型不理解语义,做语义上的匹配解决不了问题。在推荐中,商品可以由一个向量来刻画,用户也可以由一系列交互过的商品来表达,两者之间做一些语义上的匹配,能推荐出一些有新意的商品,增加推荐多样性。而传统的方法比如CF,CB等,无法学习得到这种用户和商品的相对间接的联系。适用场景:阅读理解,QA,搜索,语义蕴含,推荐,广告等。 ...转载 2018-08-19 19:52:46 · 10076 阅读 · 0 评论 -
深度文本匹配发展总结
1、背景介绍文本匹配是自然语言处理中的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。2、数据集介绍论文中经常用到的数据集:SNLI:570K条人工标注的英文句子对,la...转载 2018-08-19 10:53:17 · 1371 阅读 · 0 评论 -
finelybook
推荐一个适合程序员找书的网站,名字如题。链接:http://finelybook.com/neural-network-methods-in-natural-language-processing/原创 2018-07-31 10:57:00 · 2695 阅读 · 0 评论 -
RNN(一) —— 完全图解RNN、RNN变体、Seq2Seq、Attention机制
本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。一、从单层网络谈起在学习RNN之前,首先要了解一下最基本的单层网络,它的结构如图:输入是x,经过变换Wx+b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。二、经典的RNN结构(N vs N)在实际应用中,我们还会遇...转载 2018-07-06 17:34:11 · 855 阅读 · 0 评论 -
NLP用朴素贝叶斯进行文本分类(二)
1.多项式模型处理句子中有重复词语的情况。如果我们考虑重复词语的情况,也就是说,重复的词语我们视为其出现多次,直接按条件独立假设的方式推导,则有P((“代开”,“发票”,“增值税”,“发票”,“正规”,“发票”)|S) =P(“代开””|S)P(“发票”|S)P(“增值税”|S)P(“发票”|S)P(“正规”|S)P(“发票”|S) =P(“代开””|S)P3(“发票”|S)P(“增值税”|...转载 2018-06-23 13:07:03 · 1621 阅读 · 0 评论 -
问答系统实践(二)构建聊天机器人小天1.0
口水简介本文主要教你如何构建基于模糊检索和深度学习的聊天机器人。之前在专栏的一篇文章已经介绍了FAQ客服机器人的基本构建流程,所以本文就不重复介绍了。详细请参看:其实无论客服机器人还是聊天机器人都离不开文本匹配,所以对于研究文本匹配的童鞋来说,能将自己所学的技术快速的应用到生活中去,算是一件最开心的事情了吧。本专栏介绍的聊天机器人均属于单轮检索式机器人,那多轮对话啥的,如果你看成由多个一轮...原创 2019-07-25 16:26:07 · 1555 阅读 · 3 评论