自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 寒假大模型学习任务二

其基本想法是:通过训练将某种语言中的每一个词 映射成一个固定长度的短向量,有这些向量构成一个词向量空间,而每一个向量则可视为 该空间中的一个点,在这个空间上引入“距离”,就可以根据词之间的距离来判断它们之间的语法、语义上的相似性了。Word2Vec是用于词向量的生成的网络结构之一。什么是词向量:一种将单词表示为连续向量的技术,通过向量,我么可以将认可识别的文本,转换成机器能够识别的数字文本,向量是人对机器输入的主要方式。编码 ,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量中只有一个。

2024-02-17 22:01:04 560

原创 大模型组寒假学习

数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论,训练集和测试集都包含 50% 的正面评论和 50% 的负面评论。构建好词表后,每个单词通常会被分配一个唯一的索引或编号,以便在后续的处理中可以使用这些索引来表示文本数据。在自然语言处理(NLP)和机器学习中,构建词表是一个重要的预处理步骤,它有助于将文本数据转换为可以被模型处理的形式。将所有单词转换为小写形式,以避免同一词汇以不同的大小写形式出现而被认为是不同的单词。熟悉python相关语法,完成数据集的读取,与词表的构建。

2024-01-27 19:43:27 918 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除