NLP
开始学习NlP,会分享自己的学习经验
栽娃
刘某人 李某人 吴某人 别舔
展开
-
Pytorch中Embedding之后怎么做?
作品为原创,转载请标明出处我在csdn中看了很多文章,虽然我了解了Embedding的含义,但是在后续的使用过程中,很不顺畅,最终我还是自己把它给摸透了Pytorch中的Embeddingembedding= nn.Embedding(dict_len,Embedding_dim)dict_len:代表的是你的训练集组成词典的总长度Embedding_dim:就是把[4,1,2,3]中的一个item化为Embedding_dim长度的向量可以这样想有个长方形**(1,4)想象成长方体的一个面,原创 2021-10-26 17:00:50 · 881 阅读 · 0 评论 -
pytroch中的SGD优化器
在pytorch中,有一个优化器(Optimizer)的概念,包名为torch.optim,优化算法有SGD, Momentum,AdaGrad,RMSProp,AdamSGDSGD是常用的优化方法,但是其收敛的过程很慢,Momentum方法可以加速收敛class torch.optim.SGD(param,lr=<objectobject>,momentum=0,dampening=0,weight_decay=0,nesterov=False)params:用于优化迭代的参.原创 2021-10-23 22:08:15 · 3219 阅读 · 0 评论 -
pytorch中的Embedding
S1=“你是个栽娃”,S2=“我是中国人”L1=[“你”,“是”,“个”,“栽”,“娃”],L2=[“我”,“是”,“中”,“国”,“人”]L_total=[“你”,“是”,“个”,“栽”,“娃”,“我”,“中”,“国”,“人”]对L_total进行编号放到一个字典中dict={“你”:0,“是”:1,“个”:2,“栽”:3,“娃”:4,“我”:5,“中”:6,“国”:7,“人”:8}有这样一个新的句子"我是栽娃"对应的编号组成向量[4,1,2,3](正常情况下会有个固定的向量长度..原创 2021-10-23 21:29:52 · 2457 阅读 · 4 评论 -
随机梯度下降
使用整个训练集的优化算法称为批量算法,因为它们会在一个大批量中同时处理所有样本。每次只使用单个样本的优化算法称为随机梯度算法。批量梯度下降每次学习都使用整个训练集,其优点在于每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点,这样其收敛速度快、迭代次数少。但是其缺点在于每次梯度更新需要遍历整个数据集,需要计算量大,消耗内存多,特别是在数据集比较大的时候,同时还不利于分布式训练。随机梯度下降算法每次只随机选择一个样本来更新模型参数,因此每次的学习是非常快速的。随机梯度下降最大的缺点在于每..原创 2021-10-23 21:00:28 · 371 阅读 · 0 评论 -
单层神经网络的实现:
单层神经网络的实现,数据集为sklean.datasets.load_iris()from sklearn.datasets import load_iris #数据集import torch.nn as nn #继承Module类import torch.nn.functional as F #激活函数和损失函数from torch.optim import Adam,SGD #优化器准备数据集,并保存为tensor格式iris = load_iris()x = iris["data"原创 2021-10-23 20:44:47 · 187 阅读 · 0 评论 -
TF-IDF详解
TF-IDF=TF*IDFTF: Term Frequency 词频IDF: Inverse Document Frequency 逆文本频率指数(1)假如一片文章有 1000 个词,"中国” 这个词出现了 20 次,"梦想" 这个词出现了 10 次,"我" 这个词出现了 50次那么:TF(“中国”)=20/1000=0.02TF(“梦想”)=10/1000=0.01TF(“我”)=50/1000=0.05(2)有一个文件库,它是用来求IDF用的,文件库包含了5000个文档在原创 2021-10-23 16:33:37 · 1478 阅读 · 0 评论