人工智能-自然语言与语音产品实现

一、语义相似度

(一)、文本向量化

1、文本向量化(Text Vectorization) 是自然语言处理(NLP)中的核心预处理步骤,旨在将人类语言的文本转换为计算机可处理的数值向量(数学表达),以便机器学习模型提取语义特征、进行数据分析。

2、Word Embedding(词嵌入) 是一种将自然语言中的词语转换为连续向量空间中的稠密向量(Dense Vector)的技术。其核心思想是通过模型训练,使语义相近的词语在向量空间中具有相近的位置,从而捕捉词语之间的语义关系(如上下位关系、类比关系等)。

(二)、word2ver 模型 

1、模型原理:Word2Vec 通过构建浅而双层的神经网络,以词袋模型为基础,利用 Skip-gram 或连续词袋(CBOW)来建立神经词嵌入。它将每个单词映射为低维向量空间中的一个向量,向量之间的距离反映了单词之间的语义相似性。

2、核心:通过词语的上下文信息来学习词语的向量表示。

3、CBOW模型:给定一个上下文,预测到词语。(输入多个预测出一个,多对一的关系)

4、 Skip-gram模型:给定一个词语,预测到上下文。(输入一个预测出一个,一对多的关系)

 一、情感分析

更新中

  一、transformer模型

更新中

train_test_split 是 sklearn.model_selection 模块中的一个重要函数,主要用于将数据集划分成训练集和测试集,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值