NLP
文章平均质量分 67
南方-D
乾坤未定,你我皆是黑马
展开
-
NLP发展史:从N-gram统计语言模型到BERT预训练模型
一、语言建模中的统计语言 先 模型1)计算单词序列语句出现的概率:目录一、语言建模中的统计语言 先 模型二、从统计语言模型到ngram语言模型三、从ngram语言模型到NNLM神经语言模型四、从NNLM神经语言模型到循环神经语言模型五、从循环神经语言模型到注意力机制的预训练语言模型总结2)预测下一个词出现的概率:实现上述功能的模型称为语言模型(LM,language model)。二、从统计语言模型到ngram语言模型马尔可夫假设认为,..原创 2022-04-03 13:02:35 · 2015 阅读 · 1 评论 -
评价标准:精确率-召回率-F1
精确率精确率(precision)是针对我们预测结果而言的。表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是:预测正确的样本占所有预测样本的概率召回率召回率(recall)是针对我们原来的样本而言的表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样原创 2022-03-22 21:32:17 · 787 阅读 · 0 评论 -
PyTorch深度学习总结--10_Basic_CNN
PyTorch深度学习总结–10_Basic_CNN10_Basic_CNN任务介绍识别手写数字图片,输出对应的数字方法1、先通过CNN模型进行扫描2、再经过线性层处理多分类任务,得到一个10分类结果,最后选出最终结果数据处理1、采用CNN处理1、Conv2d作为卷积层2、MaxPool2d 作为池化层3、ReLU 作为激活层Conv2d作为卷积层Kernel是卷积核,卷积核一般为随机数当padding=1时,相当于填充了一圈0MaxPool2d 作为池化层用2x2的原创 2022-01-11 19:18:36 · 409 阅读 · 0 评论 -
PyTorch深度学习总结--12_Basic_RNN
PyTorch深度学习总结–12_Basic_RNN12_Basic_RNN任务介绍通过RnnCell学习将hello转化为ohlol使用embedding进行压缩如何使用embedding压缩,需要将字母转换为对应的数字。这里采用字母下标当做该字母表示的数字转换为embedding向量输入形式输入x是每个字母输出o是x转换为对应的字母实现代码python 语言,PyTorch实现import torchidx2char = ['e', 'h', 'l', 'o']x原创 2022-01-09 21:50:00 · 616 阅读 · 0 评论 -
PyTorch深度学习总结--13_Name_Classification
PyTorch深度学习总结–13_Name_Classification13_Name_Classification任务介绍根据名称,选出国家使用模型GRU,这里采用双向的GRU模型,双向GRU的结构类似于下图,将RNNCell替换为GRUCell即可输入:两个hidden0,都是zeros形成的,输入的两个hidden需要拼接在一起输出:结果第一个是正向的hidden,第二个是反向的hidden因为是双向的,所以会输出两个hidden汉字的转化为Tensor1、先将单词中原创 2022-01-09 21:27:28 · 937 阅读 · 0 评论 -
PyTorch学习笔记
基本术语数乘:矩阵对应元素相乘,乘出结果相加 ,得到的结果是一个数算法利弊梯度下降算法只能找到局部最优,不能找到全局最优但是神经网络中经常使用梯度下降法,因为神经网络中局部最优点很少(对每一个点求loss,求和后再更新w的值,因此可以并行计算)随机梯度下降算法对每一个点求loss后立刻更新w的值,不能并行计算,计算速度相对梯度下降来说比较慢鞍点O点为鞍点,导数为0画图函数import matplotlib.pyplot as pltplt.plot(w_list,mse_lis原创 2021-11-12 22:14:48 · 2822 阅读 · 0 评论 -
NLP—小任务一:文本相似度计算
任务描述:文本相似度计算任务找出其中可能存在的重复项编号仅仅后4位不同文本描述相同或者相似例如:300030280004 油漆笔-[规格:红色,斑马]300030280010 油漆笔-[规格:红色,斑马]分词结巴分词其他分词方式实现方式数据存到excel文档中例如python实现实现思路:先读取excel文件数据先挑出一个需要对比的数据,用这个数据与所有的数据进行相似度比较每次比较前先判断一下编号是否仅后四位不同然后对比较的两组词进行结巴分词原创 2021-10-20 17:04:40 · 450 阅读 · 6 评论