自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 torch框架:输出和损失函数的搭配

问题:我们在训练网络时,在全连接层之后得到的向量feat 维度一般为(batchsize,numclass),这时候的feat是没有被归一化的。我们需要搞清楚之后输出和损失函数的搭配。总结:我们直接进行总结。多分类:Crossentropy= LogSoftmax + NLLLoss = Softmax + Log +NLLLoss代码等价版为:inputs = torch.randn((64,14),requires_grad=True)target = torch.tensor([r

2020-08-01 00:47:41 345

原创 Task04:基于深度学习的文本分类1

学习目标学习FastText的使用和基础原理学会使用验证集进行调参深度学习可以用于文本表示,可以将词典其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。在本章我们将介绍FastText,将在后面的内容介绍Word2Vec和Bert。FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。FastText是一个

2020-07-25 18:48:20 270

原创 Task03:基于机器学习的文本分类

学习目标学会文本的离散表示的原理使用sklearn的机器学习模型完成文本分类文本表示在自然语言领域,需要对文本进行向量表示:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入是指:一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间,它是文本分类的第一步。文本的表示方法分为离散表示和分布式表示:离散表示(离散、高维、稀疏):one-hot、count vector、TF-IDF、n-gram 等,分布式

2020-07-25 18:48:02 432

原创 Task02:数据读取与数据分析

学习目标分析赛题数据的分布规律通过这次学习定义一个自己的句子分析类,可以用来循环使用,进而分析所有相似的data数据大小:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。数据读取:import pandas as pddata_root={ "train_path":"../data/train_set.csv", "test_path":"../data/test_a.csv", "sub_path":"../data/test_a_sampl

2020-07-25 18:47:48 224

原创 Task01:赛题理解

学习目标天池比赛:零基础入门NLP - 新闻文本分类理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路一、赛题数据数据类型:这次的数据类型不是文字,而是由文字转义出来的数字,需要将文本进行一个多(14)分类的预测,是一个比较基本的NLP分类任务。labeltext657 44 66 56 2 3 3 37 5 41 9 55数据大小:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。数据标签:在数据集中标签的对应的关系如下:

2020-07-25 18:47:32 128

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除