- 博客(2)
- 收藏
- 关注
原创 寒假大模型学习任务二
其基本想法是:通过训练将某种语言中的每一个词 映射成一个固定长度的短向量,有这些向量构成一个词向量空间,而每一个向量则可视为 该空间中的一个点,在这个空间上引入“距离”,就可以根据词之间的距离来判断它们之间的语法、语义上的相似性了。Word2Vec是用于词向量的生成的网络结构之一。什么是词向量:一种将单词表示为连续向量的技术,通过向量,我么可以将认可识别的文本,转换成机器能够识别的数字文本,向量是人对机器输入的主要方式。编码 ,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量中只有一个。
2024-02-17 22:01:04 568
原创 大模型组寒假学习
数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论,训练集和测试集都包含 50% 的正面评论和 50% 的负面评论。构建好词表后,每个单词通常会被分配一个唯一的索引或编号,以便在后续的处理中可以使用这些索引来表示文本数据。在自然语言处理(NLP)和机器学习中,构建词表是一个重要的预处理步骤,它有助于将文本数据转换为可以被模型处理的形式。将所有单词转换为小写形式,以避免同一词汇以不同的大小写形式出现而被认为是不同的单词。熟悉python相关语法,完成数据集的读取,与词表的构建。
2024-01-27 19:43:27 943 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人