NLP学习
文章平均质量分 92
zzhijiki2
这个作者很懒,什么都没留下…
展开
-
torch框架:输出和损失函数的搭配
问题:我们在训练网络时,在全连接层之后得到的向量feat 维度一般为(batchsize,numclass),这时候的feat是没有被归一化的。我们需要搞清楚之后输出和损失函数的搭配。总结:我们直接进行总结。多分类:Crossentropy= LogSoftmax + NLLLoss = Softmax + Log +NLLLoss代码等价版为:inputs = torch.randn((64,14),requires_grad=True)target = torch.tensor([r原创 2020-08-01 00:47:41 · 356 阅读 · 0 评论 -
Task04:基于深度学习的文本分类1
学习目标学习FastText的使用和基础原理学会使用验证集进行调参深度学习可以用于文本表示,可以将词典其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。在本章我们将介绍FastText,将在后面的内容介绍Word2Vec和Bert。FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。FastText是一个原创 2020-07-25 18:48:20 · 280 阅读 · 0 评论 -
Task03:基于机器学习的文本分类
学习目标学会文本的离散表示的原理使用sklearn的机器学习模型完成文本分类文本表示在自然语言领域,需要对文本进行向量表示:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入是指:一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间,它是文本分类的第一步。文本的表示方法分为离散表示和分布式表示:离散表示(离散、高维、稀疏):one-hot、count vector、TF-IDF、n-gram 等,分布式原创 2020-07-25 18:48:02 · 441 阅读 · 0 评论 -
Task02:数据读取与数据分析
学习目标分析赛题数据的分布规律通过这次学习定义一个自己的句子分析类,可以用来循环使用,进而分析所有相似的data数据大小:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。数据读取:import pandas as pddata_root={ "train_path":"../data/train_set.csv", "test_path":"../data/test_a.csv", "sub_path":"../data/test_a_sampl原创 2020-07-25 18:47:48 · 238 阅读 · 0 评论 -
Task01:赛题理解
学习目标天池比赛:零基础入门NLP - 新闻文本分类理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路一、赛题数据数据类型:这次的数据类型不是文字,而是由文字转义出来的数字,需要将文本进行一个多(14)分类的预测,是一个比较基本的NLP分类任务。labeltext657 44 66 56 2 3 3 37 5 41 9 55数据大小:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。数据标签:在数据集中标签的对应的关系如下:原创 2020-07-25 18:47:32 · 135 阅读 · 0 评论