![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 91
chvalrous
不忘初心,方得始终.
展开
-
Self-Guided Contrastive Learning for BERT Sentence Representations
文章链接:《Self-Guided Contrastive Learning for BERT Sentence Representations》文章的背景:尽管bert及后续很多优化的变体,但是对用于句子相似度计算的句子如何最优的表征, 这块的结论并不是很清晰。比如之前常用的方法是直接取bert的倒数第一层 或者 倒数第二层的[cls]向量作为句子表征。然而我们实际中拿这个[cls]向量直接计算句子相似度的时候就会发现, 本该距离远的sentence 的 cls 向量表征也可能很近,这个现象在题.原创 2021-09-30 15:41:27 · 1015 阅读 · 1 评论 -
聊天机器人及Facebook Blender
1 聊天机器人定义 聊天机器人是经由对话或者文字进行交谈的计算机程序,能够模拟人类对话。 应用场景: 智能客服(电商,各垂直业务平台),智能音箱(小度,小爱),语音助手等。 2 聊天机器人常见实现方法总结 常见的有以下3种,即: 2.1 基于模板的聊天机器人 2.2 基于检索的聊天机器人 2.3 基于生成式的聊天机器人3 基于模板的聊天机器人 以下是个玩具版聊天机器人,为基于模板的....原创 2020-06-08 17:42:16 · 1591 阅读 · 3 评论 -
自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT)
自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT)最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。就此,我将最近看的一些相关论文进行总结,选取了几个代表性模型(包括ELMo [1],OpenAI GPT [2]和BERT [3])和大家一起...转载 2020-03-15 16:23:39 · 823 阅读 · 0 评论 -
ELECTRA:超越BERT,19年最佳NLP预训练模型
本文转载自:https://mp.weixin.qq.com/s/gqc3jKB33mvMKyGXUFTBdwBERT推出这一年来,除了XLNet,其他的改进都没带来太多惊喜,无非是越堆越大的模型和数据,以及动辄1024块TPU,让工程师们不知道如何落地。今天要介绍的ELECTRA是我在ICLR盲审中淘到的宝贝(9月25日已截稿),也是BERT推出以来我见过最赞的改进,通过类似G...转载 2019-11-29 11:05:24 · 392 阅读 · 0 评论 -
97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)
本文转载自:http://www.17bigdata.com/97-5%E5%87%86%E7%A1%AE%E7%8E%87%E7%9A%84%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%EF%BC%88%E5%AD%97%E5%B5%8C%E5%85%A5bi-lstmcrf%EF%BC%89.h转载 2017-04-23 09:37:29 · 28060 阅读 · 5 评论 -
NLP︱高级词向量表达(二)——FastText(简述、学习笔记)
本文转载自:http://blog.csdn.net/sinat_26917383/article/details/54850933FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P.转载 2017-07-27 19:46:06 · 1518 阅读 · 0 评论 -
fastText原理及应用
本文转载自: http://blog.csdn.net/yick_liao/article/details/62222153简介fastText是一种Facebook AI Research在16年开源的一个文本分类器。 其特点就是fast。相对于其它文本分类模型,如SVM,Logistic Regression和neural network等模型,fastText在保转载 2017-07-27 19:50:14 · 4304 阅读 · 0 评论 -
Unicode中文和特殊字符的编码范围 及部分正则
本文转载自:http://blog.csdn.net/laokaizzz/article/details/43342285Unicode中文和特殊字符的编码范围 编程中有时候需要用到匹配中文的正则,一般用 [ \u4e00-\u9fa5]+ 即可搞定。不过这正则对一般的火星文鸟语就不太适用了,甚至全角的标点符号都不包含在内。例如游戏里面的玩家名,普通青年一般都是汉字,文艺青年会加几转载 2017-08-19 14:28:10 · 8949 阅读 · 0 评论 -
一文了解深度学习在NLP中的最佳实践经验和技巧
本文转载自:https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247489078&idx=2&sn=3ea74efebeee09e480814e4070bfec45在NLP社区中曾流行着这样一个玩笑,说是一个带注意力机制的LSTM模型在任何的NLP任务上的表现都是最好的。虽然这在过去的两年中确实如此,但这个模型转载 2017-09-18 11:23:36 · 1919 阅读 · 0 评论 -
谷歌推自然语言理解框架SLING,看文本即知语义|论文+代码
大多数自然语言理解(NLU)系统分析语言的过程是一条由分析步骤组成的流水线:先标注词性,再进行句法依存分析,然后为输入文本计算出语义表示。谷歌打破了这条流水线上的所有步骤,把它们捏到了一起,推出了一步到位的自然语言理解系统:SLING。SLING能够直接分析自然语言文本,根据它的语义表示生成语义框架图示。与原有的大多数系统相比,它避免了自然语言理解流水线的一个严重缺陷:前面步骤中的错误转载 2017-11-16 20:24:46 · 2782 阅读 · 1 评论 -
python结巴(jieba)分词
一、特点1、支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。 (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2、支持繁体分词3、支持自定义词典二、实现结巴分词的实现原理主要有一下三点:(1)基于Trie树结构实现高效...转载 2019-02-22 16:58:26 · 362 阅读 · 0 评论 -
在分类中如何处理训练集不均衡问题
本文转载自: https://blog.csdn.net/heyongluoyao8/article/details/49408131文章翻译自Quora: https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set在分类中如何处理训练集中不平衡问题 在很多机器学习任务中...转载 2019-02-20 10:44:55 · 1159 阅读 · 0 评论 -
使用simhash算法对网页去重
本文转载自:http://www.lai18.com/content/2095944.html如果搜索文档有很多重复的文本,比如一些文档是转载的其他的文档,只是布局不同,那么就需要把重复的文档去掉,一方面节省存储空间,一方面节省搜索时间,当然搜索质量也会提高。 simhash是google用来处理海量文本去重的算法。[b]1. 原理:[/b]simhash将一个文档转换转载 2017-01-07 11:23:51 · 2079 阅读 · 0 评论 -
simhash与Google的网页去重
本文转载自:http://leoncom.org/?p=650607前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量转载 2017-01-07 11:18:19 · 1674 阅读 · 0 评论 -
现今的三大分词算法介绍
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在转载 2014-12-17 20:51:12 · 4380 阅读 · 0 评论 -
用中文把玩Google开源的Deep-Learning项目word2vec
本文转载自http://www.cnblogs.com/wowarsenal/p/3293586.htmlgoogle最近新开放出word2vec项目,该项目使用deep-learning技术将term表示为向量,由此计算term之间的相似度,对term聚类等,该项目也支持phrase的自动识别,以及与term等同的计算。word2vec项目首页:https://code.go转载 2014-12-24 20:18:27 · 1571 阅读 · 0 评论 -
利用中文数据跑Google开源项目word2vec - hebin
本文转载自:http://www.tuicool.com/articles/RB7fqaB一直听说word2vec在处理词与词的相似度的问题上效果十分好,最近自己也上手跑了跑Google开源的代码( https://code.google.com/p/word2vec/ )。1、语料首先准备数据:采用网上博客上推荐的全网新闻数据(SogouCA),大小为2.1G。转载 2015-02-05 11:58:41 · 2218 阅读 · 1 评论 -
中文分词技术(中文分词原理)
本文转载自 http://www.cnblogs.com/flish/archive/2011/08/08/2131031.html一、 为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字转载 2015-02-10 11:30:03 · 1170 阅读 · 0 评论 -
NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈
本文转载自http://blog.sciencenet.cn/blog-362400-526304.html 引用老友: 受教了。谢谢立委。 我同意“成语从来不是问题”。成问题的应该是一词多义,或歧义,对吧? 这个迷思不再局限于中文处理,它在整个NLP领域和NLP爱好者圈子里颇有迷惑性。WSD (Word Sense Disambiguation) 确系 NLP 难点,但在NLP应用上基本不是转载 2015-02-11 17:34:37 · 2693 阅读 · 0 评论 -
CRF 简介入门
CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词转载 2015-11-12 14:25:14 · 2909 阅读 · 0 评论 -
JAVA自然语言处理NLP工具包
1. Java自然语言处理 LingPipeLingPipe 是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查转载 2015-11-27 16:09:25 · 8425 阅读 · 0 评论 -
斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)”
本文转载自:http://52opencourse.com/235/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E4%B8%83%E8%AF%BE-%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%EF转载 2016-05-08 21:48:46 · 13286 阅读 · 1 评论 -
Standord NLP组整理的NLP工具、资源列表
本文转载自:http://fuliang.iteye.com/blog/1882983 Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources Contents Tools:转载 2016-06-30 11:44:14 · 4457 阅读 · 0 评论 -
文本关键词提取算法
本文转载自:http://www.cnblogs.com/a198720/p/3990666.html1.TF-IDF2.基于语义的统计语言模型文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新转载 2017-01-03 15:55:03 · 3683 阅读 · 0 评论 -
基于深层神经网络的命名实体识别技术
本文转载自:http://www.csdn.net/article/1970-01-01/2825013摘要:命名实体识别是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别是信息检索,查询分类,自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。引言命名实体识别(Named Entity Recogni转载 2017-01-03 16:38:08 · 1580 阅读 · 0 评论 -
马尔科夫链
终于下定决心要了解一下马尔科夫链了。当然经典的那个tutorial必是参考文献,另外找了一个浙大教授写的PPT,很不错,用中文讲tutorial的东西理出来了。下面这篇文章写的也不错。http://googlechinablog.com/2006/04/blog-post_17.html转自上述地址的一篇文章数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4转载 2014-12-17 21:31:13 · 1151 阅读 · 0 评论