![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
NeilGY
这个作者很懒,什么都没留下…
展开
-
Python自然语言处理实战(1):NLP基础
从建模的角度看,为了方便计算机处理,自然语言可以被定义为一组规则或符号的集合,我们组合集合中的符号来传递各种信息。自然语言处理研究表示语言能力、语言应用的模型,通过建立计算机框架来实现这样的语言模型,并且不断完善这样的语言模型,还需要根据语言模型来设计各种实用的系统,并且探讨这些实用技术的评测技术。从自然语言的角度出发,NLP基本可以分为两个部分:自然语言处理以及自然语言的生成,演化为理解和生成文...转载 2018-12-14 10:41:10 · 799 阅读 · 0 评论 -
bert概述
bert原理:https://terrifyzhao.github.io/2019/02/18/BERT%E5%8E%9F%E7%90%86.htmlbert代码:https://terrifyzhao.github.io/2019/01/30/%E4%BD%BF%E7%94%A8BERT%E7%94%9F%E6%88%90%E5%8F%A5%E5%90%91%E9%87%8F.html...原创 2019-03-14 11:35:25 · 579 阅读 · 0 评论 -
log_softmax和softmax激活函数的使用
原创 2019-03-07 17:46:07 · 2493 阅读 · 0 评论 -
推荐算法详解
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: 1)基于内容的推荐:这一类一般...转载 2019-03-11 09:54:09 · 2038 阅读 · 0 评论 -
NLP-关键词提取
关键词提取算法一般也能分为有监督和无监督。1、有监督的关键词提取算法主要是通过分类的方式进行的,通过构建一个较为丰富和完善的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。有监督的方法能够获取到较高的精度,但缺点是需要大批量的标注数据,人工成本过高。另外,会有大量的信息出现,一个固定的词表有时很难将信息的内容表达出来。2、而无监督的方法对数据要...转载 2019-03-11 14:27:20 · 647 阅读 · 0 评论 -
word2vec原理总结
CBOW与Skip-Gram模型基础:https://www.cnblogs.com/pinard/p/7160330.htmlHierarchical Softmax的模型:https://www.cnblogs.com/pinard/p/7243513.htmlNegative Sampling的模型:https://www.cnblogs.com/pinard/p/7249903.h...原创 2019-03-21 16:40:18 · 426 阅读 · 0 评论 -
gensim中word2vec的使用
https://www.cnblogs.com/pinard/p/7278324.html原创 2019-03-21 17:03:53 · 276 阅读 · 0 评论 -
transformer模型中的多头attention机制
转自:https://www.cnblogs.com/robert-dlut/p/8638283.html《Attention is all you need》中提出了多头attention机制,这篇论文主要亮点在于:1)不同于以往主流机器翻译使用基于RNN的seq2seq模型框架,该论文用attention机制代替了RNN搭建了整个模型框架。2)提出了多头注意力(Multi-head...转载 2019-03-21 17:57:27 · 9914 阅读 · 2 评论 -
推荐算法概述
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: 1)基于内容的推荐:这一类一般...转载 2019-03-13 15:20:50 · 668 阅读 · 0 评论 -
模型准确率提高及优化加速
https://www.cnblogs.com/mrxsc/articles/6266584.html原创 2019-03-25 17:35:14 · 936 阅读 · 0 评论 -
推荐系统描述
一、常见的推荐算法原理(时间、位置影响)目前常见的一些推荐如下:基于内容推荐:分析用户看过的内容(历史内容等 )再进行推荐。 基于用户的协同过滤推荐(UserCF):给用户推荐和他兴趣相似的其它用户喜欢的物品。 基于物品的协同过滤推荐(ItemCF):给用户推荐和他之前喜欢的物品相似的物品。 基于标签的推荐:内容有标签,用户也会因为用户行为被打上标签,通过给用户打标签或是用户给产品打...转载 2019-03-26 14:32:08 · 730 阅读 · 0 评论 -
基于互信息和左右熵的新词发现
互信息可以计算聚合度,左右熵可以计算自由度原文链接:https://www.jianshu.com/p/e9313fd692ef原创 2019-04-04 10:30:32 · 1877 阅读 · 0 评论 -
模型优化总结
模型准确率提高:1.从数据上做优化:收集更多训练数据,对数据分词,字向量、词向量的嵌入,对抗损失和虚拟对抗损失的加入等2.从算法上做优化:1.神经元调节。2.数据训练批次调节.3.dropout的加入。模型训练加速:通过队列的方式读取数据,和多线程的方式异步训练模型。摒弃同步读取数据、训练数据的方法。...原创 2019-04-08 14:02:34 · 1165 阅读 · 0 评论 -
字典树
Trie树(字典树)方法介绍1.1、什么是Trie树Trie树,即字典树,又称单词查找树或键树,是一种树形结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是最大限度地减少无谓的字符串比较,查询效率比较高。Trie的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。它有3个基本性质:...转载 2019-04-03 18:05:04 · 196 阅读 · 0 评论 -
任务型客服系统简述
这里的分类是这样分的:首先将对话分为问答与会话,在问答中按照文档是否结构化分为无结构化文档与结构化文档。无结构化文档中包含一些如IR信息检索(如QA对,查找文档的问题),IE信息抽取(如阅读理解,查找文档中的精确片段),这一块的难点在于相似性的计算。结构化文档中包含数据库,知识图谱等,他们的输入为结构化的片段,数据库具有查询的功能,知识图谱具有查询与推理的能力,这一块的难点其实也是如何获取自然...原创 2019-03-06 22:10:24 · 739 阅读 · 0 评论 -
NLP算法工程师的学习和成长
1.NLP解决什么问题;2.NLP算法发展简史;3.检索式问答系统的语义匹配模型;4.任务型对话系统背后的算法实例;5.创业公司NLP工程师的工作职责;6.NLP算法工程师面试注意事项;其中前两个小节主要大概讲述一下NLP这个学科它解决了什么问题,以及它算法发展的简要的历史,这样可以让大家对它先有一个整体上的认识;中间两节介绍一下在问答系统和对话系统中NLP的作用和典型的模型;最后两...转载 2019-03-08 15:59:29 · 2361 阅读 · 0 评论 -
意图识别各种模型比较
语言理解模块主要包括意图与槽位的识别。意图的识别实际上是一个分类问题,如基于规则,传统机器学习算法 (SVM),基于深度学习算法(CNN, LSTM, RCNN, C-LSTM, FastText)等。意图在对话中还涉及转换,这里不在说明。Slot识别实际上是一种序列标记的任务,如基于规则 (Phoenix Parser),基于传统机器学习算法 (DBN; SVM),基于深度学习算法(LSTM, ...转载 2019-02-23 00:12:00 · 27632 阅读 · 0 评论 -
实体识别和关系抽取的联合模型总结
实体识别和关系抽取的目标是从非结构化的文本中发现(实体1、关系、实体2)的三元组,它对知识库的构建和问答任务都很重要,是信息抽取的核心问题。现有的关系抽取方法主要有两种:1.使用流水线方法进行抽取:先对句子进行实体识别,然后对识别出的实体两两组合,再进行关系分类,最后把存在实体关系的三元组做为输入。缺点:1.错误传播,实体识别模块的错误会影响下面的关系分类性能。2.差生了没必要的冗余信...原创 2019-02-27 17:15:25 · 19506 阅读 · 18 评论 -
深度学习中优化函数的比较
https://blog.csdn.net/qq_21460525/article/details/70146665原创 2019-03-01 15:36:11 · 2474 阅读 · 0 评论 -
半监督文本分类项目总结
半监督文本分类的优势:可以减少数据的标注,节省人力成本。项目流程:1.数据预处理:1).生成字的字典:加载所有训练数据,统计词频,统计每个字在各个文本中出现的文本数量n,取n大于1的字,再根据词频大小排序,取前6000个字,并保存。2).生成训练数据:训练数据分为语言模型的训练数据和分类模型的训练数据。 语言模型训练数据的封装:遍历有标签和无标签的训练数据,对每一...原创 2019-02-27 17:19:44 · 1614 阅读 · 0 评论 -
CRF简单理解总结
条件随机场(Conditional Random Fields, 以下简称CRF):是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。条件随机场是一种判别式模型CRF的作用:简单理解就是从可选的标注序列中,选择最靠谱的一个序列。比如一句话中有3个单词,可选的词性为【名词,动词】。当我们对这三个字标记为l1:(名词,动词,动词)显然不太...原创 2019-02-27 17:28:29 · 5285 阅读 · 0 评论 -
NLP中模型的一些总结
1. 各种交叉熵损失函数的比较:sparse_softmax_cross_entropy_with_logits(logits=net, labels=y):labels可以是直接的数字标签,会将其做one-hot操作softmax_cross_entropy_with_logits中 labels接受one-hot标签 。相当于sparse_softmax_cross_entropy_wi...原创 2019-02-27 22:29:50 · 2448 阅读 · 0 评论 -
词性标注
https://blog.csdn.net/u013510838/article/details/81907121原创 2019-02-24 21:20:50 · 194 阅读 · 0 评论 -
seq2seq简单总结
1.什么是seq2seq:最基础的Seq2Seq模型包含了三个部分,即Encoder、Decoder以及连接两者的中间状态向量,Encoder通过学习输入,将其编码成一个固定大小的状态向量c,继而将c传给Decoder,Decoder再通过对状态向量c的学习来进行输出。EOS表示encoder阶段的结束,Decoder阶段解码的开始。2.seq2seq+attention:1) 为...原创 2019-02-26 14:02:27 · 846 阅读 · 0 评论 -
意图识别项目笔记
意图识别分为两个模块:意图分类的识别和当前意图中slot(槽位)的识别。其中槽位的识别可以参考实体的识别,但又与之不同。槽位识别可以看做是对每个意图所需条件的识别,比实体的识别更加多元化。比如有一句话:显示从北京到上海的航班。意图:航班查询。槽位标记:北京(from-city),上海(to-city)实体标记:北京(city),上海(city)。1.项目流程样本格式:采用BIO...原创 2019-02-26 17:53:37 · 1951 阅读 · 0 评论