8.2隐含语义分析

文章探讨了Tf-idf算法在搜索引擎中的应用,通过计算单词在文档中的频率和在整个文集中的逆文档频率,量化关键词的相关性。LSA和向量空间模型用于处理文本相似性,解决近义词和多义词问题。通过降维和矩阵分解提高文档分类的精度和可视化效果。
摘要由CSDN通过智能技术生成
  • Tf-id f(“Tf”和“idf”两部分合在一起)

    • 人们在搜索引擎中输入的关键词,与计算机中存储的海量数据文本之间的关联度的量化标准
    • TF:一个特定的单词在文档中出现的频率
    • IDF:这个单词在其他文档中是否出现。
      • 分母:所有文档的个数
      • 分子:包含这个特定搜索词的文档的个数
    • Tf-idf:两者相乘
    • 多个关键词:多个Tf-idf相加
    • Term-Document Matrix:单词-文本矩阵。处理文本时,不处理一堆文本,而是处理一个矩阵:每一列代表一篇文章,每一行代表一个关键词
  • Vector-Space Model(向量空间模型)

    • t篇文章的关键词出现次数这样的量化形式可以由P矩阵中的各个向量表示
    • 当把文章定义为向量时就可以比较两篇文章:计算向量之间的余弦值,越大,越相似,可以文档聚类
    • 困难点:
      • 近义词:同样的意思可以有不同的词,可能导致recall低
      • 多义词:“苹果”是水果还是电子产品,可能导致precision低
    • 解决办法:(类似于SVD奇异值分解,类似于PCA)将维度压缩,浓缩信息,在新的空间中判断更加精准
  • Latent Semantic Analysis(LSA,隐含语义分析)

    • T、D:正交阵
    • S:对角阵
    • r:矩阵X的秩rank
    • X·X^T矩阵中的第i行、第j列,就是原来X矩阵中第i行和第j行的内积结果
    • 换句话说,现在可以用TS矩阵中的第i行代表第i个单词,即用新空间中的坐标来代替原来的term和documents。(在后面会有非常好的特性)
    • Latent Semantic Analysis(例子)

      • 初始矩阵

      • 分解

      • 秩k近似(降维)

        • 只保留信息量最大的(类似于PCA中“特征值”最大的)两个(行、列)
        • 新得到的X是原来的X的一个误差最小的近似
      • 关键词二维可视化图

        • 某两个关键词距离近:从原点连到某点的向量与另一个向量之间的夹角小
      • 文档二维可视化图

        • 如果分类的话,与人类分类结果十分接近
        • 文档余弦相似度

          • Transformed:做了LSA1操作后,属于相同类型的文档之间相似度显著提升,余弦更接近1
      • 查询

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
社会发展日新月异,用计算机应用实现数据管理功能已经算是很完善的了,但是随着移动互联网的到来,处理信息不再受制于地理位置的限制,处理信息及时高效,备受人们的喜爱。所以各大互联网厂商都瞄准移动互联网这个潮流进行各大布局,经过多年的大浪淘沙,各种移动操作系统的不断面世,而目前市场占有率最高的就是微信小程序,本次开发一套基于微信小程序的生签到系统,有管理员,教师,学生三个角色。管理员功能有个人中心,学生管理,教师管理,签到管理,学生签到管理,班课信息管理,加入班课管理,请假信息管理,审批信息管理,销假信息管理,系统管理。教师和学生都可以在微信端注册和登录,教师可以管理签到信息,管理班课信息,审批请假信息,查看学生签到,查看加入班级,查看审批信息和销假信息。学生可以查看教师发布的学生签到信息,可以自己选择加入班课信息,添加请假信息,查看审批信息,进行销假操作。基于微信小程序的生签到系统服务端用Java开发的网站后台,接收并且处理微信小程序端传入的json数据,数据库用到了MySQL数据库作为数据的存储。这样就让用户用着方便快捷,都通过同一个后台进行业务处理,而后台又可以根据并发量做好部署,用硬件和软件进行协作,满足于数据的交互式处理,让用户的数据存储更安全,得到数据更方便。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值