自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 torch框架:输出和损失函数的搭配

问题: 我们在训练网络时,在全连接层之后得到的向量feat 维度一般为(batchsize,numclass),这时候的feat是没有被归一化的。我们需要搞清楚之后输出和损失函数的搭配。 总结: 我们直接进行总结。 多分类: Crossentropy= LogSoftmax + NLLLoss = Softmax + Log +NLLLoss 代码等价版为: inputs = torch.randn((64,14),requires_grad=True) target = torch.tensor([r

2020-08-01 00:47:41 346

原创 Task04:基于深度学习的文本分类1

学习目标 学习FastText的使用和基础原理 学会使用验证集进行调参 深度学习可以用于文本表示,可以将词典其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。在本章我们将介绍FastText,将在后面的内容介绍Word2Vec和Bert。 FastText FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。 FastText是一个

2020-07-25 18:48:20 271

原创 Task03:基于机器学习的文本分类

学习目标 学会文本的离散表示的原理 使用sklearn的机器学习模型完成文本分类 文本表示 在自然语言领域,需要对文本进行向量表示:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。 词嵌入是指:一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间,它是文本分类的第一步。 文本的表示方法分为离散表示和分布式表示: 离散表示(离散、高维、稀疏): one-hot、count vector、TF-IDF、n-gram 等, 分布式

2020-07-25 18:48:02 433

原创 Task02:数据读取与数据分析

学习目标 分析赛题数据的分布规律 通过这次学习定义一个自己的句子分析类,可以用来循环使用,进而分析所有相似的data 数据大小: 训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。 数据读取: import pandas as pd data_root={ "train_path":"../data/train_set.csv", "test_path":"../data/test_a.csv", "sub_path":"../data/test_a_sampl

2020-07-25 18:47:48 228

原创 Task01:赛题理解

学习目标 天池比赛:零基础入门NLP - 新闻文本分类 理解赛题背景与赛题数据 完成赛题报名和数据下载,理解赛题的解题思路 一、赛题数据 数据类型: 这次的数据类型不是文字,而是由文字转义出来的数字,需要将文本进行一个多(14)分类的预测,是一个比较基本的NLP分类任务。 label text 6 57 44 66 56 2 3 3 37 5 41 9 55 数据大小: 训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。 数据标签: 在数据集中标签的对应的关系如下:

2020-07-25 18:47:32 130

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除