ML复习总结 1. ML基础1.1 两个基本理论奥卡姆剃刀:它是常用的、自然科学研究中最基本的原则,即"若有多个假设与观察一致,则 选择最简单的那个"。没有免费午餐定理:任何算法的期望性能都一样。在某些问题上表现好的算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,旺往往会起到决定性的作用。1.2 监督学习监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y∣X...
LR和SVM的区别 LR和SVM的区别相同点:都是线性分类器;都是判别模型;损失函数目的都是增大对数据分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。不同点:本质上是损失函数不同:LR损失函数为logloss:J(θ)=−1m[∑i=1my(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]J(\theta)=-\frac{1}{m}\left[\...
深度学习中的归一化技术小结 深度学习中的归一化技术主要有以下几种方法:Batch NormalizationLayer NormalizationInstance NormalizationGroup Normalization核心步骤都是:x^(k)=x(k)−E[x(k)]Var[x(k)]+ϵ\widehat{x}^{(k)}=\frac{x^{(k)}-\mathrm{E}\left[x^{(k...
深度学习调参点滴 深度学习调参一,初始化多尝试几种初始化方法:Xavier_uniform二,正则化添加高斯随机噪声:例如在初始化的词嵌入中加入高斯随机噪声、在中间隐层添加噪声、在输出层添加噪声(例如label smoothing),一般加入均值为0,方差较小的高斯噪声。Dropout:输入dropout、循环层的dropout、中间层的dropout等等;权重衰减:L2正则化;BatchNo...
特定主题或特定情感下的文本生成 特定主题或特定情感下的文本生成1. Topic Aware Neural Response Generation(2017)提出了TA-Seq2Seq模型。其中TwitterLDA很有用,它是短文本最优的主题模型。TwitterLDA假设:每一条信息只于一个主题有关,信息中的每个词要么是背景词要么是这条信息下的主题词。联合注意力机制:Message attention:最后融合成上下...
问答系统 问答系统一,问答系统概述1,研究背景问答系统是下一代搜索引擎的基本形态。问答系统的定义:输入:自然语言的问句,而非关键词的组合。输出:直接答案,而非文档集合。2,发展历程图灵测试基于知识推理的问答系统:答案或者从知识库中检索得到,或者在知识库上经过推理得到。问答式检索系统:利用信息检索以及浅层自然语言处理技术从大规模文本库或者网页库中抽取出答案。社区问答系统基于知识库...
机器翻译 机器翻译一,机器翻译概论概念:机器翻译是用计算机把一种语言翻译成另一种语言的一门科学和技术。机器翻译的困难自然语言中普遍存在的歧义和未知现象。句法结构歧义、词汇歧义、语用歧义新的词汇、术语、结构和语义机器翻译不仅仅是字符串的转换。机器翻译的解不唯一,而且始终存在的人为的标准。基本翻译方法1,直接转换法2,基于规则的翻译方法步骤如下:对源语言句子进行词...
信息抽取 信息抽取一,信息抽取概述信息抽取定义:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取的主要任务有:实体识别与抽取实体消歧关系抽取事件抽取二,实体识别与抽取1,实体识别任务:识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。两个子任务:实体边界识别和确定实体类型。特点:人名、地名、机...
语法理论 语法理论乔姆斯基提出的四种形式语法有明显的缺陷:过于泛化,生成能力太强。所以之后又提出了很多改进的语法!功能合一文法词汇功能语法广义结构语法树连接语法链语法一,功能合一文法采用复杂特征集来描述词、句法规则、语义信息,以及句子的结构功能。采用合一运算对复杂特征集进行运算。它是对短语结构语法的改进。复杂特征集:α(fi)=vi(i=1,...,n)\alpha(f_i)...
CRFs及其应用 CRFs及其应用模型原理基本思路:给定观察序列XXX,输出标识序列YYY,通过计算P(Y∣X)P(Y|X)P(Y∣X)求解最优标注序列。CRFs和HMMs的区别:CRFs中特征函数(全局特征函数)统一表示为:Fj(Y,X)=∑i=1nfj(yi−1,yi,X,i)F_j(Y,X)=\sum_{i=1}^{n}f_j(y_{i-1},y_i,X,i)Fj(Y,X)=i=1∑nfj...
句法分析 句法分析一,概述任务:句法分析的任务就是识别句子的句法结构。类型有:短语结构分析完全句法分析局部句法分析依存句法分析二,短语结构分析目标:实现高正确率、高鲁棒性、高速度的自动句法分析过程。困难:自然语言中存在大量的复杂的结构歧义。结构歧义中最常见的就是介词短语绑定歧义。基本方法:基于CFG规则的分析方法线图分析法CYK算法…基于PCFG的分析方法...
词法分析与词性标注 词法分析与词性标注一,英语的形态分析单词识别形态分析形态分析的一般方法:查词典单词还原进入未登录词处理模块二,汉语自动分词概要1,汉语自动分词中的主要问题规范问题歧义切分字段处理交集型歧义组合型歧义未登录词的识别2,汉语自动分词的基本原则语义上无法由组合成分直接相加而得到的字串应 该合并为一个分词单位。(合并原则)语类无法由组合成分直接...
强化学习点滴 强化学习Agent learns to take actions maximizing expected reward or expected cumulative reward per episode.基于模型的方法无模型的方法首先得说一下这里的模型指的是什么。**model就是用来预测环境接下来会干什么,即在这一状态的情况下执行某一动作会达到什么样的状态,这一个动作会得到什么re...
深度学习中的结构化概率模型 深度学习中的结构化概率模型结构化概率模型也称为图模型。一,非结构化建模的挑战概率模型可以完成很多任务,例如:估计密度函数去噪缺失值的填补采样对上千甚至上百万的随机变量的分布建模,无论从计算上还是统计意义上来说,都是一个极具挑战性的任务。非结构化建模的主要挑战在于参数的数量是巨大的,这会导致:内存:存储参数的开销太大。统计的高效性:容易过拟合,因为数据量不够,所以需要一些...
CASCADE: Contextual Sarcasm Detection in Online Discussion Forums(2018)论文笔记 本文提出了一种新的综合性的模型结构:CASCADE(ContextuAl SarCAsm DEtector),它充分利用了每条文本的上下文信息,包括:文本的用户信息(用户文体风格信息+用户个性信息);文本的主题信息。CASCADE模型的大致流程如下:构建用户嵌入:首先利用每个用户的历史文本得到用户的写作风格嵌入和用户个性嵌入,并利用典型相关分析(CCA)将两个向量融合到一起得到用户嵌...
Reasoning with Sarcasm by Reading In-between(MIARN 2018)论文笔记 本文主要是提出了一种新的模型:MIARN(Multi-dimensional Intra-Attention Recurrent Networks),Intra-attention其实可以看做是self-attention的一种变种,很简单,但可解释性很好!1. Introduction虽然反讽表达形式多样,但其中有很大一部分(SemEval2018数据集显示占69.9%)是前后情感矛盾式的...
个性化情感分析的三篇论文(UPNN、UPA、UPDMN) 一,Learning Semantic Representations of Users ans Products for Document Level Sentiment Classification(2015)1. 模型结构本文提出了:UPNN(User Product Neural Network),基于CNN模型。参数主要有一下四个方面的参数:user-sentiment:uk...
面向社会媒体的文本情感分析 情感分析发展的七项关键技术:情感分类情感元素抽取跨领域情感分析个性化情感分析隐式情感分析情感原因发现情感生成1. 情感分类1.1 基于传统机器学习方法的情感分类最好的模型是:SVM!(2002)文本特征采用:Bag of ngrams words + TFIDFBag of ngrams characters+TFIDF1.2 基于深度学习方法的句子情感分类...
深度学习中的注意力机制(2017版) 转载自 张俊林博客原始地址 /* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/
写给NLP研究者的编程指南 写给NLP研究者的变成指南(总结)基础:neural NLPpython(tensorflow、pytorch)good science将要学到的:how to write code in a way that makes your life easier!写研究代码主要有两种模式:写原型写组件一,写原型1. 如何快速地写代码使用一个框架核心:training ...