2020年05月_郝伟老师的技术博客

转载 ICLR 2020趋势分析：NLP中更好&更快的Transformer

文章目录自注意力变体Long-Short Range Attention使用子树掩码的树结构的注意力哈希注意力多跳注意力训练目标识别替换任务词和句子结构任务类型限制的实体替换嵌入位置感知的复杂词向量层次嵌入分解的嵌入参数模型结构压缩记忆可逆层交叉层参数共享自适应深度预测总结转载来源：https://mp.weixin.qq.com/s/hbx4DryEaaB0TlJPH7uyyA导读：介绍了ICLR2020中对Transformer的改进，从自注意力变体，训练目标，模型结构这三个方面对Transfor

2020-05-31 13:28:17 330

转载 NLP中的自监督表示学习

文章目录1. 预测中心词2. 预测邻居词3. 相邻句子的预测4. 自回归语言建模5. 掩码语言建模6. 下一个句子预测7. 句子顺序的预测8. 句子重排9. 文档旋转10. 表情符号预测转载来源：https://mp.weixin.qq.com/s/eROWWPQkUs91bcv4VsQqSA虽然计算机视觉在自监督学习方面取得了惊人的进展，但在很长一段时间内，自监督学习一直是NLP研究领域的一等公民。语言模型早在90年代就已经存在，甚至在“自我监督学习”这个术语出现之前。2013年的Word2Vec论文

2020-05-30 13:20:16 1230

转载自然语言处理的数学原理（二）

文章目录统计语言模型的具体描述一个简单的例子统计语言的描述条件概率的估算统计语言模型用于分词的细节讨论二元模型的扩展统计语言模型的局限性统计语言模型的训练问题语料库的选取分词一致性与颗粒度小结转载来源：blog.csdn.net/ZLJ925/article/details/79020158上一篇文章介绍了 NLP 中处理分词的两种方法，其中基于统计语言模型的方法以巨大的优势胜出。在上一篇文章的末尾，我们讲了优秀的算法模型在形式上应该是简洁优雅的。具体来说：一个正确的数学模型在形式上应该是简洁优雅

2020-05-29 12:49:02 779

转载自然语言处理（NLP）语义分析--文本分类、情感分析、意图识别

文章目录第一部分：文本分类一、文本预处理（解决特征空间高维性、语义相关性和特征分布稀疏）二、文本特征提取三、分类模型第二部分：情感分析一、概述二、基于情感词典的情感分类方法三、基于机器学习的情感分类方法第三部分：意图识别一、概述二、意图识别的基本方法三、意图识别的难点转载来源：https://blog.csdn.net/weixin_41657760/article/details/93163519第一部分：文本分类训练文本分类器过程见下图：文本分类问题：给定文档p（可能含有标题t），将文档分类

2020-05-28 13:14:05 19145 1

转载自然语言处理的数学原理（一）

文章目录从分词的角度来看文法分析与统计模型文法分析的困境查字典分词法千呼万唤始出来的统计模型小结转载来源：https://blog.csdn.net/ZLJ925/article/details/79019500一个基本的搜索引擎的工作，基本上可以分成以下三个部分：利用网络爬虫下载网页，分析网页关键词，制成索引备用；理解用户输入，确定检索关键词；根据关键词和网页索引，按照相关性排序列出搜索结果。第一个部分主要涉及网络爬虫技术、图论、自然语言处理等技术；第二个部分主要涉及自然语言处理；第三

2020-05-27 12:56:49 952

转载 8个方法解决90％的NLP问题

文章目录一、收集数据二、数据清洗三、找到一种好的数据表达方式四、分类五、检验混淆矩阵六、词汇结构的统计七、语义信息的利用Word2Vec八、使用端到端的方式训练语法特征写在最后转载来源:https://blog.csdn.net/weixin_42137700/article/details/89763939一、收集数据每一个机器学习问题都始于数据，比如一组邮件、帖子或是推文。文本信息的常见来源包括：商品评价（来自 Amazon、Yelp 以及其他 App 商城）用户产出的内容（推文、Fa

2020-05-26 12:58:40 752 1

转载自然语言处理标记工具汇总

转载来源：https://blog.csdn.net/wangyizhen_nju/article/details/94559607整理了一些比较好用的自然语言处理标记工具,如有遗漏欢迎补充。名称年份描述协议官网githubdoccano2019doccano is an open source text annotation tool for human. It provides annotation features for text classification

2020-05-25 13:01:45 383

转载什么是语言？什么是自然语言？

文章目录一、什么是语言？表达方式性质定义特性结构种类用途文字特征符号性和系统性任意性和线条性不变性和可变性传承性和交际性表征加工生理机制语音知觉语言起源二、什么是自然语言？简介发展特点VB缺陷转载来源：https://blog.csdn.net/R1uNW1W/article/details/79683747一、什么是语言？语言（英文名：Language）是人类最重要的交际工具，是人们进行沟通交流的主要表达方式。人们借助语言保存和传递人类文明的成果。语言是民族的重要特征之一。一般来说，各个民族都有自己

2020-05-24 13:26:07 4409

转载深度学习（Deep Learning），自然语言处理（NLP）及其表达（Representation）

文章目录简介单隐含层神经网络共享表达（Shared Representations）递归神经网络结论文章来源转载来源：https://blog.csdn.net/ycheng_sjtu/article/details/48520293简介过去几年中，深度神经网络在模式识别领域占据着统治地位。他们在诸多计算机视觉任务领域，将之前的最好算法彻底击败。语言识别也正朝着这个方向发展。They blew the previous state of the art out of the water for m

2020-05-23 12:29:33 1191

转载自然语言处理（NLP）学习路线总结

文章目录1、自然语言处理概述2、自然语言处理入门基础2.1 数学基础2.2 语言学基础2.3 Python基础2.4 机器学习基础2.5 深度学习基础2.6 自然语言处理的理论基础3、自然语言处理的主要技术范畴3.1 语义文本相似度分析3.2 信息检索（Information Retrieval, IR）3.3 信息抽取（Information Extraction）3.4 文本分类（Text Categorization）3.5 文本挖掘（Text Mining）3.6 文本情感分析（Textual Af

2020-05-22 13:27:48 1373

转载自然语言处理6 -- 情感分析

文章目录1 概述2 基于情感词典的传统方法2.1 基于词典的情感分类步骤2.2 情感词典2.3 情感词典文本匹配算法2.4 缺点3 基于深度学习的算法3.1 基于深度学习的情感分类步骤3.2 代码示例3.2.1 分词和停用词预处理3.2.2 词向量编码3.2.3 构建LSTM网络3.2.4 softmax输出类别3.3 基于深度学习的情感分析难点4. 总结转载来源：https://blog.csdn.net/u013510838/article/details/825587971 概述情感分析是自然语

2020-05-21 13:22:18 1704 1

转载自然语言处理5 -- 词向量

文章目录1 概述2 词向量工具2.1 模型训练2.2 增量训练2.3 求词语相似度2.4 求与词语相近的多个词语3 词向量训练算法4 词向量训练代码实现5 总结转载来源：https://blog.csdn.net/u013510838/article/details/821083811 概述词向量和分词一样，也是自然语言处理中的基础性工作。词向量一方面解决了词语的编码问题，另一方面也解决了词的同义关系，使得基于LSTM等深度学习模型的自然语言处理成为了可能。和分词不同，中英文文本，均需要进行词向量编码

2020-05-20 12:43:59 643

转载自然语言处理4 -- 句法分析

文章目录1 概述2 句法分析分类2.1 句法结构分析2.2 语义依存关系分析3 句法分析工具4 深度学习和句法分析5 总结转载来源：https://blog.csdn.net/u013510838/article/details/819764271 概述句法分析也是自然语言处理中的基础性工作，它分析句子的句法结构（主谓宾结构）和词汇间的依存关系（并列，从属等）。通过句法分析，可以为语义分析，情感倾向，观点抽取等NLP应用场景打下坚实的基础。随着深度学习在NLP中的使用，特别是本身携带句法关系的LST

2020-05-19 12:38:14 1510

转载自然语言处理3 -- 词性标注

文章目录1 概述2 词性标注难点3 词性标注算法3.1 基于字符串匹配的字典查找算法3.2 基于统计的词性标注算法4 jieba词性标注原理4.1 准备工作4.2 遍历语句，进行分词和词性标注4.3 未登录词，HMM隐马尔科夫模型处理5 总结转载来源：https://blog.csdn.net/u013510838/article/details/819071211 概述词性标注在自然语言处理中也属于基础性的模块，为句法分析、信息抽取等工作打下基础。和分词一样，中文词性标注也存在着很多难点，比如一词多

2020-05-18 12:56:09 1302

转载自然语言处理2 -- jieba分词用法及原理

文章目录1 概述2 jieba分词用法2.1 分词2.2 添加自定义词典2.3 调整词典2.4 关键词提取2.5 词性标注2.6 并行分词2.7 Tokenize：返回词语在原文的起止位置2.7 Tokenize：返回词语在原文的起止位置2.8 延迟加载机制3 jieba分词源码结构4 jieba分词原理分析4.1 初始化4.2. 切分短语4.3 构建DAG4.4 构建节点最大路径概率，以及结束位置4.5 构建切分组合4.6 HMM新词处理4.7 返回分词结果5 总结转载来源：https://blog.c

2020-05-17 12:31:59 1055

转载自然语言处理1 -- 分词

文章目录1 概述2 中文分词难点分词标准切分歧义未登录词3 中文分词算法基于词典的分词算法基于统计的分词算法4 分词质量和性能5 总结转载来源：https://blog.csdn.net/u013510838/article/details/816730161 概述分词是自然语言处理的基础，分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文语句使用空格将单词进行分隔，除了某些特定词，如how many，New York等外，大部分情况下不需要考虑分词问题。但中文不同，天然缺少

2020-05-16 13:49:02 1102

转载 JMM如何解决原子性&可见性&有序性问题

@[TOC]JMM如何解决原子性&可见性&有序性问题原子性问题可见性问题有序性问题指令重排序原子性指的是一个操作是不可中断的，即使是在多线程环境下，一个操作一旦开始就不会被其他线程影响。在java中，对基本数据类型的变量的读取和赋值操作是原子性操作有点要注意的是，对于32位系统的来说，long类型数据和double类型数据(对于基本数据类型，byte,short,int,float,boolean,char读写是原子操作)，它们的读写并非原子性的，也就是说如果存在两条线程同时对

2020-05-15 17:35:01 712

hwaust2020的博客