文档和词项之间的相关度计算汇总

下面针对《Spark高级数据分析》中的第六章的实验
进行原理上的分析
先来个矩阵 M m ⋅ n M_{m·n} Mmn

word1word2word3
doc1
doc2
doc3
doc4
doc5

M m ⋅ n ≈ U m ⋅ k S k ⋅ k ( V T ) k ⋅ n M_{m·n}≈U_{m·k}S_{k·k}(V^T)_{k·n} MmnUmkSkk(VT)kn
P118有一句十分关键的话:
线性代数运算告诉我们重构矩阵中的两个列的余弦相似度
正好等于 S V T SV^T SVT的相应列的余弦相似度

这里的重构矩阵的意思就是 M m ⋅ n M_{m·n} Mmn近似后的结果(就是上面等式的右侧)。

表达式对应书本
特定词语-每个词语相关度 V n ⋅ k S k ⋅ k ( V T ) k ⋅ 1 V_{n·k}S_{k·k}(V^T)_{k·1} VnkSkk(VT)k16.9节
特定文档-每个文档相关度 U m ⋅ k S k ⋅ k U 1 ⋅ k U_{m·k}S_{k·k}U_{1·k} UmkSkkU1k6.10节
特定词语-每个文档相关度 U m ⋅ k S v t = U m ⋅ k S k ⋅ k ( V T ) k ⋅ 1 U_{m·k}Sv_t=U_{m·k}S_{k·k}(V^T)_{k·1} UmkSvt=UmkSkk(VT)k16.11节
特定文档-每个词语相关度 u d T S V = U 1 ⋅ k S k ⋅ k ( V T ) k ⋅ n u_d^TSV=U_{1·k}S_{k·k}(V^T)_{k·n} udTSV=U1kSkk(VT)kn6.11节
多词项查询 U m ⋅ k S k ⋅ k ⋅ 多 词 项 构 成 的 向 量 U_{m·k}S_{k·k}·多词项构成的向量 UmkSkk6.12节

( V T ) k ⋅ 1 (V^T)_{k·1} (VT)k1:表示从 V k ⋅ n V_{k·n} Vkn中抽取一列,即特定词语
U 1 ⋅ k U_{1·k} U1k:表示从 U m ⋅ k U_{m·k} Umk中抽取一行,即特定文档

其中多词项查询相当于:
查询的多个关键词做成词向量,
最后计算该词向量和每个文档的相关度
也就是在模仿前面的“特定词语-每个文档相关度”,
计算的时候把特定词语对应的V中的向量替换成“多个关键词”构成的向量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
计算机信息管理系统设计原则与原理 计算机信息管理系统作为计算机领域的一个重要部分,是由计算机和人共同组成的, 这个系统能够进行数据的传递、收集、加工、存储、使用和维护。计算机管理系统是由 四个部分以及三大支柱组成的:四个部分分别是信息处理器、信息源、信息管理者、信 息用户;三大支柱分别是数据库、计算机网络、现代化管理。 1 计算机信息管理系统概述。 通过计算机信息管理系统,人们能够较为高效的获取一些需要的信息,所以这一系统 不止能够在组织或者企业的管理经营中进行运用,应用的领域越来越广泛。 中国的水利网站曾经有这样一篇报道,国家水利部将以网络平台和计算机为依托将农 村安全饮水的管理水平进行进一步的提升;河北日报也曾有过一篇关于这方面的报道, 在 2013 年 10 月 1 日,在所有的教练车上安装了一个系统软件,该软件就是计算机信息管理系统,是为了 进一步防止学车的学员"偷工减料".在这些报道中能够充分看出计算机管理系统在社会中 发挥的作用越来越大,所以将计算机信息管理系统的一系列运作原理弄明白非常有必要 。 计算机信息管理系统是以计算机为工具,通过收集、存储、分析和处理数据,得出管 理人员所需信息的系统,能够对数据库、计算机网络以及现代化的各种管理方式充分的 进行利用,将统计学、会计学、数学以及经济学等一系列模型进行充分的利用,对数据 具有非常强大的作用。比如,企业中的信息管理系统能帮助管理人员进行质量分析、市 场预测、库存控制等工作。 总的来说,计算机信息管理系统具有的作用包括协助人员分析、处理、控制、预测数 据以及对决策进行辅助。 2 计算机信息管理系统设计应遵循的原则 当下这个时代是瞬息万变的,随着计算机信息管理系统发展的不断深入,系统不稳定 、信息的安全性缺乏保障等一系列问题逐渐暴露出来。为避免这些问题的出现,在设计 的过程中需要遵循以下原则: 2.1 与时俱进 随着科技的不断进步与发展,计算机系统不能只在最初设计的技术层面上止步不前, 要随着新技术的不断研发,对该系统的功能不断进行更新;此外,我们所处的时代是一 个信息大爆炸的时代,在该系统中要及时替换和更新数据库中的信息;计算机信息网络 的管理水平也要紧跟上时代的步伐,与前沿的技术及综合水平要保持一致,才能更好的 为社会的发展提供技术和智力的支撑。 2.2 重视信息安全 在进行设计的过程中,在子系统进行工作时编程人员要保证其独立性,互相之间不能 出现干扰。此外,计算机信息管理系统往往以网络为依托,而网络信息具备共享性的特 点,因此一定要高度重视信息的安全。在这一系统中,要对局域网进行限制,如果使用 该系统时不在局域网之内,一定要选择客户端的方式进行登录,以保证信息的安全。 2.3 运用跨平台方案 计算机信息管理系统中可以选择运用跨平台的方案,如此一来不仅节省了维护信息的 费用,还有利于促进更新系统管理的相关设备,不断完善计算机信息系统。 2.4 及时查看 技术管理人员要及时查看这一系统,防止混入不具备价值的数据,同时也能够有效避 免由于临时出现的故障对工作造成的延误。 3 计算机信息管理系统的设计原理 计算机信息管理系统主要运用的工具就是计算机,设计系统的工作人员在进行数据信 息收集、存储、处理以及分析之后,将有效的信息进行汇总。在计算机专业分支中,计 算机管理系统是非常重要的一个部分,人们可以应用计算机信息管理系统来对所需的资 料信息进行搜寻,对数据进行分析,对其流程进行预测,在对事物进行决策时能够起到 辅助作用,因此高效的计算机信息管理系统的基本原理对于该系统来说非常重要。 概括的说,计算机信息管理系统就是利用网络技术为基础,合并使用数据库技术以及 计算机技术的一种信息管理系统。在对计算机信息管理系统进行相应的设计时,首先需 要对数据进行全面的分析,找出对信息系统进行管理的具体方法,最终的目标及在系统 中所提供的一系列相关管理功能;其次将功能管理的模块设计出来,来实现服务器中所 具有的功能;同时需要对数据库的管理进行设计、完成各个模块的属性设置以及数据字 典;然后对客户所提出的要求以及需求进行归纳和综合,将概念模型制作出来;接着将 概念模型进行转化,转化成数据模型;最后需要进行的工作是匹配一个与数据模型相符 合的物理结构,将关系数据库建立起来,管理程序的编制以及系统的安全维护以及调整 。这六个步骤起到的作用都非常重要,少一个步骤都不行。 计算机信息管理系统中所设立的功能模块是对实施管理模型的方法进行了具体的论述 ,对模块进行设计主要是将系统中自身模块的结构进一步的明确,对系统之间的一些关 系进行合理的安排,从而对子系统的模块结构图进行描绘。如此一来就对模块之间与子 系统之间传输数据的途径与方法进行了规定,从而使得数据信息的有序输出与输入有了 相应的保证。 在对

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值