NLP
内蒙金刚狼
这个作者很懒,什么都没留下…
展开
-
NLP CNN
CNN 卷积神经网络为什么CNN常用于图像处理:局部性平移性可缩性CNN简易图局部性与平移性会在卷积层得到体现。可缩性会在池化层得到体现。CNN-卷积层(参数,不同维度下的特征提取)卷积核的通道数和输入数据的通道数一致,卷积核个数等于输出通道数CNN-池化层摊平(Flatten)在test-CNN中卷积核宽度是与词向量的维度一致用卷积核进行卷积时,不仅考虑了词义而且考虑了词序及上下文CNN实现MNISTimport torchimport torch.n原创 2021-05-08 14:19:15 · 203 阅读 · 0 评论 -
NLP 神经网络初步
神经元激活函数1. sigmoid函数缺陷:梯度消失偏执现象:输出均大于0,使得输出均值不是0tanh函数relu函数优势:计算简单单边的输出特性和生物学意义上的神经元阈值机制相似当x>0时,梯度不变,解决了sigmoid以及tanh常见的梯度消失问题一般用于多层感知机以及卷积神经网络,在循环神经网络中并不常见损失函数回归问题1.MSE 均方误差2. RMSE 均方根误差3. MAE 平均绝对误差分类问题交叉熵CNN 卷积神经网络为原创 2021-05-08 14:18:32 · 256 阅读 · 0 评论 -
NLP 数据不平衡问题
数据不平衡指的是不同类别的样本差异非常大,或者少数样本代表了业务的关键数据,需要对少量样本的模式有很好的下也许。其中分布不均衡分为两种:大数据分布不均衡:数据规模较大,某类别样本占比较小。小数据分布不均衡:整体数据规模较小,某类别的样本数量也少。三种解决方式1.欠采样在少量样本数量不影响模型训练的情况下,可以通过对多数样本欠采样,实现少数样本和多数样本的平衡。(减少多数样本的样本量)1.1 随即删除1.2 原型生成(PG算法)2.过采样在少量样本数量不支撑模型训练的情况下,可以通过原创 2021-03-30 15:26:19 · 554 阅读 · 0 评论 -
NLP 模型验证
混淆矩阵准确率召回率 精确率召回率:在所有正样本中,被预测为正样本的个数精确率:在预测为正样本中,真正的正样本F1-score原创 2021-03-24 14:32:39 · 262 阅读 · 0 评论 -
NLP 预处理
1. 过滤词过滤停用词,出现频率很低的词。2. one way to normalize (English)Stemming合并后的单词不一定是有效的单词。went,go,going --> gofly,flies --> flideny,denied,denying --> denifast,faster,fastest -->fast3.单词转换为向量例词典:【我们,去,爬山,今天,你们,昨天,跑步】独热编码(one-hot):向量大小是词库的大小原创 2021-03-15 19:26:48 · 107 阅读 · 0 评论 -
NLP 语言模型
Chain Rulep(A,B,C,D) = p(A)*p(B|A)*p(C|AB)*p(D|ABC)Markov AssumptionUnigram (一阶)Bigram (二阶)可扩展至N阶语言模型的评价理想情况下假设有两个语言模型A,B选定特定的任务,比如拼写纠错把两个模型A,B都应用在此任务中比较准确率,判断A,B表现模型评价:Perplexityx:average log likelihoodLaplace Smoothing为了避免单个概率为0,使整原创 2021-03-15 15:39:58 · 94 阅读 · 0 评论 -
NLP 常用技术
动态规划原创 2021-03-13 16:12:53 · 228 阅读 · 0 评论 -
NLP 基础/paper
NLP的基础任务分词词性标注(POS)命名实体识别(NER)句法分析(Synatatic Analysis)语义分析(Semantic Analysis)paper reading and search论文检索Google学术DBLP: link微软学术:link文献选择文献阅读顺序...原创 2021-03-12 17:24:05 · 102 阅读 · 0 评论