向量空间模型

最新推荐文章于 2022-04-29 15:52:38 发布

子诚之

最新推荐文章于 2022-04-29 15:52:38 发布

阅读量459

点赞数

分类专栏：数学模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_39288981/article/details/113870990

版权

数学模型专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. 基础

1.1 向量空间

如果 V 满足向量的加法和乘法封闭性，我们就称 V 是 F 上的向量空间。

1.2 向量间的距离

曼哈顿距离
欧氏距离
切比雪夫距离
闵氏距离

1.3 向量长度

L₁ 范数 ∣∣x∣∣ ，它是为 x 向量各个元素绝对值之和，对应于向量 x 和原点之间的曼哈顿距离。
L₂ 范数 ∣∣x∣∣₂ ，它是 x 向量各个元素平方和的 1/2 次方，对应于向量 x 和原点之间的欧氏距离。
L_p 范数 ∣∣x∣∣_p ，为 x 向量各个元素绝对值 p 次方和的 1/p 次方，对应于向量 x 和原点之间的闵氏距离。
L_∞ 范数 ∣∣x∣∣_∞，为 x 向量各个元素绝对值最大那个元素的绝对值，对应于向量 x 和原点之间的切比雪夫距离。

1.4 向量夹角的余弦

在这里插入图片描述

1.5 向量空间模型

向量空间模型假设所有的对象都可以转化为向量，然后使用向量间的距离（通常是欧氏距离）或者是向量间的夹角余弦来表示两个对象之间的相似程度。

2. 文本检索

(1) 文档转化为特征向量

首先，基于 BOW 方式对文档进行预处理，以获得文档的单词和词组。
①分词：
②停用词：
③同义词和扩展词：

然后，对所有文档的单词和词组去重，将唯一的单词或词组作为向量的一个维度。

最后，基于 tf-idf 方法为每个维度取值。
在这里插入图片描述
N 表示文档数量。文档频率 df 表示存在某个单词的文档数量。

词频 tf 表示单词在文档中出现的次数。

(2) 用户查询转化为向量

(3) 基于向量空间模型计算查询向量与文档向量的相似度

(4) 排序

3. 文本聚类

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
向量空间模型

1. 基础1.1 向量空间如果 V 满足向量的加法和乘法封闭性，我们就称 V 是 F 上的向量空间。1.2 向量间的距离曼哈顿距离欧氏距离切比雪夫距离闵氏距离1.3 向量长度L1 范数 ∣∣x∣∣ ，它是为 x 向量各个元素绝对值之和，对应于向量 x 和原点之间的曼哈顿距离。L2 范数 ∣∣x∣∣2 ，它是 x 向量各个元素平方和的 1/2 次方，对应于向量 x 和原点之间的欧氏距离。Lp 范数 ∣∣x∣∣p ，为 x 向量各个元素绝对值 p 次方和的 1/
复制链接

扫一扫

专栏目录

子诚之 CSDN认证博客专家 CSDN认证企业博客

码龄7年

60: 原创

31万+: 周排名

4万+: 总排名

4万+: 访问

: 等级

684: 积分

68: 粉丝

71: 获赞

7: 评论

147: 收藏

私信

关注

热门文章

分类专栏

组学数据分析 5篇
机器学习 2篇
生物信息 9篇
web 3篇
环境&软件 4篇
深度学习 1篇
devops 1篇
编程 6篇
容器 5篇
流程开发 1篇
CS 4篇
C语言 1篇
数学模型 4篇

最新评论

JavaScript_02_notes
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
notes_NLP
简单简单小白: 《notes_NLP》大佬讲述的很清楚，总结的也很详细，让我通俗易懂，又以实例证明技术点的实用性及可操作性，让我受益良多，感谢博主的分享
notes_质谱&蛋白组学数据分析基础知识
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。
注释 bed 文件中 feature 的基因名
Flynn1392: 人类基因组的注释文件推荐到GENCOE下载
Docker_notes_basic
CSDN-Ada助手: VSCode 和 SublimeText 哪个好用？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。