通过共现矩阵和余弦相似度实现机器对单词的认知、python实现

110 篇文章 41 订阅 ¥39.90 ¥99.00
37 篇文章 2 订阅
本文介绍了如何通过语料库预处理、分布式表示、共现矩阵和余弦相似度计算单词的相似度。内容包括预处理文本,将单词表示为向量,利用共现矩阵构建向量表示,以及如何计算和排序相似单词。
摘要由CSDN通过智能技术生成

通过共现矩阵和余弦相似度实现机器对单词的认知、python实现

本文介绍的定义:

语料库、计数方法的目的、语料库预处理、单词的分布式表示、分布式假设、上下文、窗口大小、基于计数的方法表示单词、用向量表示单词、共现矩阵、单词的相似度、余弦相似度、相似单词排序。

一、语料库预处理

语料库:大量的文本数据。

计数方法的目的:从语料库中提取语言的本质。

语料库预处理:将文本分割为单词,并将分割后的单词列表转化为单词ID列表。实现代码如下,其中corpus 是单词ID列表,word_to_id 是单词到单词ID的字典,id_to_word是单词ID到单词的字典。

def preprocess(text):
    text = text.lower(
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

每天学点

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值