![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
文章平均质量分 91
财神Childe
撸码中。。。。。
展开
-
From Word Embeddings To Document Distances 阅读笔记
本文主要解决文本相似度问题,在word2vec, BOW的基础上提出了WMD模型(Word Mover’s Distance),主要思想是将A文档中的每个词,通过最小距离的转移到B文档中对应的词,最终将每个距离相加,作为衡量两个文档的距离。WMD是无超参数的,而且可解释性高。在一些nlp任务中取得了不错效果。背景介绍:解决这类问题的常见思路如下:文档最常用的两种表示方式BOW和TF-IDF...原创 2020-03-15 21:19:15 · 362 阅读 · 0 评论 -
动态规划十大经典案例(Dynamic Programming Practice Problems)
动态规划(Dynamic Programming)是求多阶段决策过程(Multistep Decision Process)最优化的一种数学方法,它将问题的整体按时间或空间的特征分成若干个前后衔接的时空阶段,把多阶段决策问题表示为前后有关的一系列单阶段决策问题,然后逐个求解,从而求出整个问题的最有决策序列。它强调了时间和空间的连续性。如果没有基础知识,建议参看关文忠教授(退休)的运筹学课程中了...原创 2020-02-17 22:17:20 · 5766 阅读 · 0 评论 -
深度剖析知识增强语义表示模型——ERNIE
文章目录什么是语义表示静态词向量动态词向量(上下文词向量)位置编码ERNIE的原理介绍神经网络上的改造辅助任务学习过程ERNIE的应用案例性能不敏感的场景:直接使用ERNIE 的模型蒸馏案例:搜索问答Query识别和QP匹配离线推荐无监督文本的深度神经网络的出现,nlp领域又火了起来,深度神经网络大大提升了nlp任务的效果。虽然早期的网络也是基于上下文进行的向量建模,但是由于单向信息流的弊端,效...原创 2019-12-10 13:16:33 · 5326 阅读 · 0 评论 -
crf++ 之中文实体识别初步实现
本文选用crf++工具包在windows上实现中文实体识别。任务是提取时间、人物、地点及组织机构名。文件下载:工具包下载:官网:http://chasen.org/~taku/software/CRF++/#features百度网盘:https://pan.baidu.com/s/1apZx8wd3xXGgMs_WUQeuSg提取码:o7fh语料文件下载百度网盘:https://pa...原创 2019-07-16 11:39:23 · 452 阅读 · 0 评论 -
rasa搭建项目可用多轮对话系统(二)
例子原创 2019-07-13 08:51:39 · 2346 阅读 · 0 评论 -
rasa搭建多轮对话系统(一)
本文主要讲述搭建过程:安装rasa:1、安装rasa_corepip install rasa_core执行上面的命令这时可能会出现C++环境问题如下这里提供了C++的文件在windows中双击安装即可。网盘地址:https://pan.baidu.com/s/1kQvBw1dg8qzF-e7DvH8TWw提取码:ef5y这步安装中可能出现jupyter与ipython的prom...原创 2019-07-12 20:58:03 · 5954 阅读 · 1 评论 -
最新语言表示方法——XLNet
ContextAutoregressive vs AutoencodingXLNet: Best of both worldsPermutation Language modelTwo-Stream self-attention mechanismRecurrence mechanism原创 2019-07-01 16:33:16 · 1057 阅读 · 0 评论 -
文本表示方法(BOW、N-gram、word2vec)
sd原创 2019-06-17 15:56:25 · 2538 阅读 · 0 评论 -
阅读理解之(bidaf)双向注意力流网络
阅读理解机器理解(machinechensition,mc),回答关于给定上下文段落的查询,需要对上下文和查询之间的复杂交互进行建模。近年来,注意力机制已经成功地扩展到了MC。通常,这些方法使用注意力集中在上下文的一小部分,并用一个固定的大小向量对其进行总结,暂时地耦合注意力,和/或经常形成单向注意力。本文介绍了双向注意流(bidaf)网络,它是一个多阶段的层次化过程,它在不同的粒度级别上表示...原创 2019-06-12 10:06:38 · 7654 阅读 · 6 评论 -
一步步理解bert
文章目录NLPWord Embedding缺点:RNN/LSTM/GRUseq2seq缺点:Contextual Word EmbeddingNeural Network Language ModelNLPNLP:自然语言处理(NLP)是信息时代最重要的技术之一。理解复杂的语言也是人工智能的重要组成部分。而自google在2018年10月底公布BERT在11项nlp任务中的卓越表后,BERT(...原创 2019-06-15 09:03:17 · 2945 阅读 · 0 评论 -
真正理解指针生成网络——Summarization with Pointer-Generator Networks
文本摘要的主要方式:文本摘要的主要方式分为两种,一种是抽取式(extractive),另一种是生成式(abstractive)抽取式是根据词语重要性、句子重要性排序,抽取出重要度高的句子,从而形成摘要,主要是对文本的选择,过程相对更容易,但是对于复杂的文本时,很难仅仅通过选择文本来形成摘要,如小说生成式则是通过自然语言处理,输出简洁、流畅、保留关键信息,更像人进行摘要的过程,设计到生成,过程...原创 2019-06-03 17:03:01 · 14142 阅读 · 19 评论