《Coupled Term-Term Relation Analysis for Document Clustering》文献笔记(上)

相关工作

        这部分主要阐述了两点,一是介绍Document Clustering领域的背景知识,其实质内容只是介绍了Document Representation——Document Clustering领域的一小部分,以词包表示法为例,给出了文本表示的数学模型;二是相关工作,列举了研究词之间关系强度计算方法,以广义向量空间模型(BVSM)为分析重点。

 

        文本表示

       [补充知识]文本表示的基本原理,在自然语言处理中,文本通常被抽象成由<特征项—特征值>构成的特征向量,所以分两方面:特征项抽取特征值计算。特征项的抽取通常来自对文本内部的分词,如早期的tf-idf向量空间模型(也是最为经典的模型,该模型之于文本表示就如同物理模型中的自由落体运动之于匀加速直线运动)。在近期研究中,从外部如WordNet字典、维基百科、概念本体等选取特征项的方法被证明可以更好的揭示文本的语义关系,如潜在语义分析、ESA等;而对于特征值的计算和优化方面,研究和模型较多,计算的方法主要是基于统计学,并从各个层面如词的贡献度、词条联系强调、共词分析、文献共引等去挖掘语义关系,并将这种语义关系反映到特征值的加权计算中。——(文本表示的研究可以有一个综述……)。

 

        以词包法(BOW)为例,给出了文本表示的一般模型,其实就是将文本d映射到通过tf-idf方法计算得到的文档向量,数学公式如下: 

 

 

        已有模型缺点:以词与词之间是相互独立为假设前提,完全忽略了词与词之间的语义关系。所以这个公式给后续的研究留下来可扩展的余地,如果引入不同的语义关系矩阵S,那么可表示为=S

 

        已有方法

        为弥补以前纯粹基于统计学方法计算特征值的丢失语义性,后续研究中充分挖掘词之间的多种联系,包括共现关系、同义关系、本体关系、基于统计关系、语义关系等,其中共现关系(co-occurrence relation)是重要的一种,重要的模型有GVSM,CVM-VSM和GTCV-VSM

        缺点:纯粹的基于统计分析;仅考察了文本内的词的共现频率,而同一领域或同一主题的专业词通常不会共现,如Data miningMachine learning,这种隐性(implicit)关系被忽略,词与词之间的语义关系没有被充分挖掘(traditional measures fail to capture the complete semantic relation between terms)。

 

        总结语

        鉴于相关工作中出现的问题,本文将词的隐性关系融入到词共现方法中,期望从capture the complete semantic relation between terms中去得到a complete representation of the semantic information for the document set,这种思路尚属空白。

 

词耦合模型

        基本原理

        思路:同时考虑词之间的intra-relationship(显示关系)inter-relationship(非显示/隐形关系)两种关系,它们都是词之间语义关系的组成部分。

        显性关系的探测方法:一种原有的共现方法——Jaccard measure

        隐形关系的探测方法:通过link terms得到隐性依赖强度。

        耦合关系:即综合上述两种关系所得,得到文档集的完全语义表示。

 

        本文方法的数学模型

        D = {d1, d2, d3}, dx∈D,x∈{1, 2, 3},m = |D| = 3。

           t(D) = {DM, ML, DB, CS},ti∈t(D),i∈(1, 2, 3, 4),n = 4。

           CoR(DM, CS) → IaR(DM, CS)→ R_IaR()→ IeR(DM, CS)→ CR(DM, CS)。

           CoR(DM, CS) = CoR(CS, DM);IaR(DM, CS) ≠ IaR(CS,DM) 。

 

        实验展示

 

        个人思考

        1、该模型其本质还是统计学方法,不管是共现关系、显示关系基于对词的统计。

        2、标题是用于文本聚类,文本聚类是以文本表示为基础,而文本表示是以特征项和特征值计算为基础。本文所做的工作仅仅是在对term(词)权值优化层面。

        3、拿本文方法和显性语义分析对比,显现语义分析侧重特征项的选取(文本的特征项并不是从文本本身抽取),而词耦合侧重的是特征值的优化。

        4、Intra-relation后面加了一个注解explicit,为了和显性语义分析加以区别,翻译成词的显示关系比较妥当。 

 

数据和实验

        数据集有320新闻组20 Newsgroups),Reuters 21578,WebKB benchmark

document collection。其中20新闻组已经下载过。

        评价指标有4个,其中有熟悉的F1-measure,Purity,RINMI

 

启示

        1、Document既可以是文本,也可以是文献。本文的思路仅仅是要去充分挖掘词之间的语义信息。可以借鉴该思路,从一个更宏观的角度去考察文献层面的语义信息。

        2、本文所做的工作仅仅是在对term(词)权值优化层面,是否可以从特征项的选取角度去考虑。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧农业是一种结合了现代信息技术,包括物联网、大数据、云计算等,对农业生产过程进行智能化管理和监控的新模式。它通过各种传感器和设备采集农业生产中的关键数据,如大气、土壤和水质参数,以及生物生长状态等,实现远程诊断和精准调控。智慧农业的核心价值在于提高农业生产效率,保障食品安全,实现资源的可持续利用,并为农业产业的转型升级提供支持。 智慧农业的实现依赖于多个子系统,包括但不限于设施蔬菜精细化种植管理系统、农业技术资料库、数据采集系统、防伪防串货系统、食品安全与质量追溯系统、应急追溯系统、灾情疫情防控系统、农业工作管理系统、远程诊断系统、监控中心、环境监测系统、智能环境控制系统等。这些系统共同构成了一个综合的信息管理和服务平台,使得农业生产者能够基于数据做出更加科学的决策。 数据采集是智慧农业的基础。通过手工录入、传感器自动采集、移动端录入、条码/RFID扫描录入、拍照录入以及GPS和遥感技术等多种方式,智慧农业系统能够全面收集农业生产过程中的各种数据。这些数据不仅包括环境参数,还涵盖了生长状态、加工保存、检验检疫等环节,为农业生产提供了全面的数据支持。 智慧农业的应用前景广阔,它不仅能够提升农业生产的管理水平,还能够通过各种应用系统,如库房管理、无公害监控、物资管理、成本控制等,为农业生产者提供全面的服务。此外,智慧农业还能够支持政府监管,通过发病报告、投入品报告、死亡报告等,加强农业产品的安全管理和质量控制。 面对智慧农业的建设和发展,存在一些挑战,如投资成本高、生产过程标准化难度大、数据采集和监测的技术难题等。为了克服这些挑战,需要政府、企业和相关机构的共同努力,通过政策支持、技术创新和教育培训等手段,推动智慧农业的健康发展。智慧农业的建设需要明确建设目的,选择合适的系统模块,并制定合理的设备布署方案,以实现农业生产的智能化、精准化和高效化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值