![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
Terry_dong
我只是个搬运工
展开
-
自然语言处理书单
自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言。自然语言处理研究的内容包括但不限于如下分支领域:文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法)、语音识别与合成等。以下自然语言处理书籍由数智物语根据公开资料、豆瓣评分综合整理。书单1. Speech and Language Proc.原创 2020-09-27 10:08:23 · 997 阅读 · 2 评论 -
自然语言--kenlm环境搭建
这篇博客主要是分享下小象学院自然语言课程(主讲:史兴)第二讲中示例中kenlm环境搭建的过程,同时也当给自己留个存档。 对于这个环境的搭建,我是在ubuntu16.04的虚拟机中进行的,下面直接进入正题:1、首先看一下此课程中搭建需要用的东西,如下图所示。在运行环境处,对于anaconda和NLTK是很简单的,这里就不多做解释了,如果有需要的可以留言交流。2、直接进入KenLM环境的搭建,首先进入kenlm的github网址点击打开链接,然后会进入到kenlm的界面,如下:...原创 2020-08-25 18:39:03 · 620 阅读 · 0 评论 -
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
GLUE 是一个用于评估通用 NLP 模型的基准,其排行榜可以在一定程度上反映 NLP 模型性能的高低。然而,现有的 GLUE 基准针对的是英文任务,无法评价 NLP 模型处理中文的能力。为了填补这一空白,国内关注 NLP 的热心人士发布了一个中文语言理解测评基准——ChineseGLUE。ChineseGLUE 目前拥有八个数据集的整体测评及其基线模型,目前已经有 20多位来自各个顶尖机构的自愿者加入并成为了创始会员。ChineseGLUE 的成员包括全国各地关注 NLP 的热心专业人士,包...原创 2020-07-16 09:54:21 · 693 阅读 · 0 评论 -
机器学习研究者的养成指南,吴恩达建议这么读论文
如何成为一名高效的机器学习研究者,然后在这个领域取得一些成就?在此之前,我们需要养成什么样的习惯?近日,一篇发布在 Reddit 机器学习版块的帖子引发了众人的讨论。近日,一位网友在 Reddit 上发帖提问:「那些高效的机器学习研究者,都有什么样的习惯?」比如,在 Arxiv 上时时跟进最新的研究,利用睡觉时间训练模型,以及充分利用 Stack Overflow。其他的呢?其实,世界上从不缺少优秀的机器学习研究者,也不缺乏好的建议和指南。想要成为一名高效的机器学习研究者,...原创 2020-07-08 15:22:21 · 309 阅读 · 0 评论 -
自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S 评测指标
前言最近在看自动文摘的论文,之前对Rouge评测略有了解,为了更好的理解Rouge评测原理,查了些资料,并简单总结。关于RougeRouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。Rouge-1、Rouge-2、Rouge-N论文[3]中对Ro原创 2020-07-06 14:24:17 · 2914 阅读 · 1 评论 -
submodular函数优化
几个月之前写了一篇文本摘要任务的一些总结(详见 文本自动摘要任务的初步总结),其中在说无监督方式做抽取式摘要的时候,参考了一篇论文:A Class of Submodular Functions for Document Summarization。最近在做业务新闻摘要的时候,基于当前无标注数据,准备应用该方法来做无监督的抽取式摘要。但是在实现的过程中,发现了很多之前忽略的细节问题,因此本篇作为上篇总结文章的补充,聚焦优化求解submodular函数的具体实现。前情回顾首先,简单回顾一下A Cla.原创 2020-06-22 11:17:43 · 1805 阅读 · 0 评论 -
文本自动摘要任务的初步总结
由于最近需要进行组内的知识分享,因而借此机会将文本摘要的一些基本知识以及本人的一些实践经验做成文稿,一方面用来组内分享,一方面也是总结一下过去在该领域的一些心得体会。因个人的能力所限,本文实质上是对文本摘要的不完全总结,如有未能囊括的知识点,还请同学们多提意见,一起进步。本文将从以下几点介绍文本摘要任务的相关内容。从整体上对文本摘要任务做一个大致的介绍,包括任务分类,评测方式等。 介绍抽取式自动摘要的内容。这也是之前我主要研究实践的领域。 介绍生成式自动摘要的内容,这里主要介绍经典的seq2se原创 2020-06-22 10:55:54 · 1469 阅读 · 0 评论 -
摘要抽取算法——最大边界相关算法MMR(Maximal Marginal Relevance) 实践
NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要内容,这样读者就能够通过最少的文字,了解到文章最要想表达的内容。由于抽取出来的摘要表达出了文章最主要的含义,所以在做长文本分类任务时,我们可以采用文本摘要算法将长文本的摘要抽取出来,在采用短文本分类模型去做文本分类,有时会起到出奇的好效果。文本摘要自动生成算法文本摘要抽取算法主要分为两大类:一种是生成式:生成式一般采用的是监督式学习算法,最常见的就是sequence2sequence原创 2020-06-22 10:35:42 · 1597 阅读 · 0 评论 -
一文详解知识图谱关键技术与应用 | 公开课笔记
讲师 | 桂洪冠来源 | AI科技大本营在线公开课视频回放地址:https://edu.csdn.net/huiyiCourse/detail/844本课程从知识图谱的历史由来开展,讲述知识图谱与人工智能的关系与现状;知识图谱辐射至各行业领域的应用;在知识图谱关键技术概念与工具的实践应用中,本课程也会讲解知识图谱的构建经验;以及达观在各行业领域系统中的产品开发和系统应用。以下是公开课文本版整理大家晚上好!我是达观数据的桂洪冠,负责达观的搜索技术团队。非常高兴今天晚上能给大家做一..原创 2020-05-26 00:17:00 · 2014 阅读 · 0 评论 -
关键词提取:TF-IDF和n-gram
一:今日相亲搭档镇楼。今天的头版给我漂亮的搭档,啥年芳二六、待字闺中之类的矫情话就不说了,希望看到文章的小伙子,如果对眼,请放下你手中的游戏,我可以牵线搭桥。好好相爱,就是为民除害。搭档是重庆妹纸,重庆妹纸长得是很水灵。搭档给我的感觉是情商比较高,比较会捧哏,说话不会闷。搭档身高160体重100,学历本科水瓶座,目前在重庆的银行工作。以下为搭档的自我介绍:性格慢热,...原创 2020-04-12 22:17:48 · 6567 阅读 · 7 评论 -
ReZero:使用加权残差连接加速深度模型收敛
文标题:Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cottrell, Julian McAuley论文作者:Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cot...原创 2020-03-23 22:02:39 · 3258 阅读 · 1 评论 -
预训练语言模型整理(ELMo/GPT/BERT...)
预训练语言模型整理(ELMo/GPT/BERT...)简介2018年ELMo/GPT/BERT的相继提出,不断刷新了各大NLP任务排行榜,自此,NLP终于找到了一种方法,可以像计算机视觉那样进行迁移学习,被誉为NLP新时代的开端。与计算机视觉领域预训练模型不同的是,其通过采用自监督学习的方法,将大量的无监督文本送入到模型中进行学习,即可得到通用的预训练模型,而NLP领域中无监督文本...原创 2020-03-19 11:04:14 · 2757 阅读 · 0 评论 -
图解Transformer
前言Transformer在Goole的一篇论文Attention is All You Need被提出,为了方便实现调用Transformer Google还开源了一个第三方库,基于TensorFlow的Tensor2Tensor,一个NLP的社区研究者贡献了一个Torch版本的支持:guide annotating the paper with PyTorch implementation。...原创 2019-08-07 21:03:02 · 817 阅读 · 0 评论 -
通俗易懂!使用Excel和TF实现Transformer
本文旨在通过最通俗易懂的过程来详解Transformer的每个步骤!假设我们在做一个从中文翻译到英文的过程,我们的词表很简单如下:中文词表:[机、器、学、习] 英文词表[deep、machine、learning、chinese]先来看一下Transformer的整个过程:接下来,我们将按顺序来讲解Transformer的过程,并配有配套的excel计算过程和tensorflow代码。...原创 2019-08-07 20:37:03 · 268 阅读 · 0 评论 -
语义相似度计算——DSSM
导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助。1. 背景以搜索引擎和搜索广告为例,最重要的也最难解决的问题是语义相似度,这里主要体...原创 2019-08-14 14:32:56 · 815 阅读 · 1 评论 -
Transformer一统江湖:自然语言处理三大特征抽取器比较
【新智元导读】自然语言处理中的三大特征处理器:RNN、CNN、Transformer,它们目前谁各方面占据优势?未来谁又更有前途呢?这篇文章用目前的各种实验数据给出了说明,结论是:放弃幻想,全面拥抱Transformer。在辞旧迎新的时刻,大家都在忙着回顾过去一年的成绩(或者在灶台前含泪数锅),并对 2019 做着规划,当然也有不少朋友执行力和工作效率比较高,直接把 2018 年初制定的...原创 2019-08-07 18:46:11 · 646 阅读 · 0 评论 -
nlp比赛篇
https://github.com/zhpmatrix/nlp-competitions-list-review(可以参考,但是实时性不太好)https://blog.csdn.net/tcx1992/article/details/86555278原创 2019-08-02 11:27:53 · 799 阅读 · 0 评论 -
nlp四大顶会:
ACL:The Association for Computational Linguistics,https://www.aclweb.org/portalEMNLP:Conference on Empirical Methods in Natural Language Processing,http://emnlp2019.orgNAACL:The North America...原创 2019-08-02 11:27:21 · 10421 阅读 · 0 评论 -
nlp实验室
1 中科院计算所自然语言处理研究组,华为诺亚方舟实验室http://nlp.ict.ac.cn/2017/index_zh.php2 哈工大社会计算和信息检索中心http://ir.hit.edu.cn/paperspapers/papers3 复旦大学自然语言处理小组4清华大学自然语言处理与社会人文计算实验室http://nlp.csai.tsinghua.edu.cn5...原创 2019-08-02 11:25:53 · 797 阅读 · 0 评论 -
初学者如何查阅自然语言处理(NLP)领域学术
原文地址:初学者如何查阅自然语言处理(NLP)领域学术 资料作者:刘知远THU 昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写...原创 2018-08-22 12:04:39 · 388 阅读 · 0 评论 -
nlp一些好的会议
国际上的文本领域会议:ACL:http://acl2017.org/加拿大温哥华 7.30-8.4EMNLP:http://emnlp2017.net/丹麦哥本哈根 9.7-9.11COLING 等国内会议:CCKShttp://www.ccks2017.com/index.php/att/成都 8月26-8月29SMPhttp://www.cips-smp.or...原创 2018-08-22 17:28:09 · 1764 阅读 · 3 评论 -
hanlp中的N最短路径分词
N-最短路径 是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束所有路径中最短的前N条路径。因为允许相等长度的路径并列,故最终的结果集合会大于或等于N。根据算法思想,当我们拿到一个...原创 2018-08-22 18:26:51 · 579 阅读 · 1 评论 -
隐马尔可夫模型 最大熵马尔可夫模型 条件随机场 区别和联系
隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。HMM首先出现,MEMM其次,CRF最后。三个算法主要思想如下:HMM模型是对转移概率和表现概率直接建模,统计共现概率。...转载 2018-08-22 18:52:00 · 2864 阅读 · 0 评论 -
标注偏置问题(Label Bias Problem)和HMM、MEMM、CRF模型比较
出处:http://blog.csdn.net/zhoubl668/article/details/7787690路径1-1-1-1的概率:0.4*0.45*0.5=0.09路径2-2-2-2的概率:0.018路径1-2-1-2:0.06路径1-1-2-2:0.066由此可得最优路径为1-1-1-1而实际上,在上图中,状态1偏向于转移到状态2,而状态2总倾向于停留在状...原创 2018-08-22 18:54:24 · 450 阅读 · 0 评论 -
统计模型之间的比较
HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种产生式模型,定义了联合概率分布 ,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布,产生式模型需要枚举出所有可能的观察序列,这在实际运算过程中很困难,因为我们需要将观察序列的元素看做是彼此孤立的个体即假设每...原创 2018-08-28 12:06:34 · 2621 阅读 · 0 评论 -
NLP中的self-attention【自-注意力】机制
随着注意力机制的深入研究,各式各样的attention被研究者们提出。在2017年6月google机器翻译团队在arXiv上放出的《Attention is all you need》论文受到了大家广泛关注,自注意力(self-attention)机制开始成为神经网络attention的研究热点,在各个任务上也取得了不错的效果。本人就这篇论文中的self-attention以及一些相关工作进行了学...转载 2018-12-16 22:19:39 · 4424 阅读 · 1 评论 -
注意力机制(Attention Mechanism)在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用 近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展。基于注意力(attention)机制的神经网络成为了最近神经网络研究的一个热点,本人最近也学习了一些基于attention机制的神经网络在自然语言处理(NLP)领域的论文,现在来对attention在NLP中的应用进行一个总结,和大家一起分享...转载 2018-12-16 22:26:12 · 686 阅读 · 0 评论 -
NLP中关于文本分类问题的常用方案
NLP通常包括两个关键问题:1.选择什么样的语言模型?2.选择什么样的分类算法?第二个问题是机器学习领域的标准问题,各种针对不同数据类型、数据分布的算法和技巧,这里不再赘述。而在NLP当中,语言模型更加重要一些。不同语言模型的区别,也就是对文本提取特征的不同。常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单...转载 2019-01-13 23:30:33 · 809 阅读 · 0 评论 -
NLP中语言模型预训练方法
最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。就此,我将最近看的一些相关论文进行总结,选取了几个代表性模型(包括ELMo [1],OpenAI GPT [2]和BERT [3])和大家一起学习分享。1. 引言在介绍论文之前,我将先简单介绍一些相关背景知识。首先是语言模型(Language Model),语言模型简单来...原创 2019-01-13 23:33:35 · 3114 阅读 · 0 评论 -
文本相似度(tf-idf 和 bm25的算法讲解)
1.关于tf-idf:(使用tf-idf和向量空间模型)TF: 文档 j 中的关键词 i 的归一化词频值描述某一词在一篇文档中出现的频繁程度。(为了阻止更长的文档得到更高的相关度权值,必须进行文档长度的某种归一化) TF=freq(i,j) / maxOthers(i,j) ###(maxxOthers = max(freq(z,j)) IDF : 逆文档频率。...转载 2019-02-01 15:54:02 · 1769 阅读 · 0 评论 -
自然语言处理(NLP)学习路线总结
目录自然语言处理概述自然语言处理入门基础自然语言处理的主要技术范畴自然语言处理基本点特征处理模型选择NLP常用工具NLP语言模型快速入门NLP方法自然语言处理学习资料1、自然语言处理概述自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间...转载 2019-03-20 21:01:53 · 91966 阅读 · 33 评论 -
中文自然语言处理——商品评论情感判别
1、数据集下载商品(书籍、酒店、计算机、牛奶、手机、热水器)等评论数据from sklearn.model_selection import train_test_splitfrom gensim.models.word2vec import Word2Vecimport numpy as npimport pandas as pdimport jiebafrom sklearn.e...转载 2019-03-20 21:07:59 · 907 阅读 · 0 评论 -
NLP&深度学习:近期趋势概述
NLP&深度学习:近期趋势概述NLP&深度学习:近期趋势概述摘要:当NLP遇上深度学习,到底发生了什么样的变化呢?在最近发表的论文中,Young及其同事汇总了基于深度学习的自然语言处理(NLP)系统和应用程序的一些最新趋势。本文的重点介绍是对各种NLP任务(如视觉问答(QA)和机器翻译)最新技术(SOTA)结果的回顾和比较。在这篇全面的综述中,你可以详细了解...原创 2019-05-25 16:06:19 · 213 阅读 · 0 评论 -
CRF函数:tf.contrib.crf.crf_log_likelihood()
在分析训练代码的时候,遇到了,tf.contrib.crf.crf_log_likelihood,这个函数,于是想简单理解下:函数的目的:使用crf 来计算损失,里面用到的优化方法是:最大似然估计使用方法:tf.contrib.crf.crf_log_likelihood(inputs, tag_indices, sequence_lengths, transition_par...原创 2019-08-04 16:52:20 · 523 阅读 · 0 评论 -
tf.contrib.crf.crf_log_likelihood说明
最近在 做一个 NER的项目,使用的是BILSTM+CRF 结构,后续 项目写完后,会开源出来。现在 对 使用 tf.contrib.crf.crf_log_likelihood时,遇到的参数问题 说一下:官方说明:https://www.tensorflow.org/code/stable/tensorflow/contrib/crf/python/ops/crf.pytf....原创 2019-08-04 16:55:16 · 401 阅读 · 1 评论 -
NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒!但是商业应用的过程中存在的以下的问题:1、是否先利用开源的分词平台进行分词后,再自己写一些算法进行未登录词、歧义词的识别?2、或者直接调用下...原创 2018-05-15 16:35:03 · 1874 阅读 · 0 评论