![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP小白入门
文章平均质量分 89
lihuhelihu
这个作者很懒,什么都没留下…
展开
-
第N2周:NLP中的数据集构建
在这个示例中,MyDataset继承了torch.utils.data.Dataset类,并实现了__len__和__getitem__方法。__len__方法返回数据集的大小,这里使用了Python内置函数len。在这个示例中,MyDataset类继承自torch.utils.data.Dataset类,实现了__len__和__getitem__方法。在这个示例中,MySampler类继承自torch.utils.data.sampler.Sampler类,实现了__iter__和__len__方法。原创 2024-08-09 23:02:17 · 471 阅读 · 0 评论 -
第N1周:one-hot编码案例
one-hot编码的基本思想是将每个类别映射到一个向量,其中只有一个元素的值为1,其余元素的值为0。○在文本表征表示上有些缺点非常突出,首先one-hot 编码是一个词袋模型,是不考虑词和词之间的顺序问题,它是假设词和词之间是相互独立的,但是在大部分情况下词和词之间是相互影响的。○one-hot编码得到的特征是离散稀疏的,每个单词的one-hot编码维度是整个词汇表的大小,维度非常巨大,编码稀疏,会使得计算代价变大。可以注意到上面的案例是以字为基本单位的,但词语被拆分开后,显然会失去原有的意思。原创 2024-08-09 16:49:29 · 359 阅读 · 0 评论