TAGE利用共现图分析数据,共现图的提出场景和应用

共现图的提出场景和应用如下:

提出场景

  • 文本分析领域:在对大量文本进行挖掘和分析时,为了揭示文本中词语、主题等元素之间的关系,学者们提出共现图。例如在新闻报道、学术文献、社交媒体帖子等文本数据中,通过构建词语共现图,可以发现经常一起出现的词汇组合,从而挖掘出潜在的语义关系、主题结构以及文本的核心内容等,辅助文本分类、信息检索、知识抽取等任务。
  • 社交网络分析方面:随着社交网络的兴起和发展,研究人员希望了解用户之间、用户与内容之间以及内容与内容之间的关联模式。共现图被引入用于表示用户的共同兴趣、共同行为、社交圈子等。例如,在社交平台上,通过构建用户-兴趣点共现图,可以发现具有相似兴趣爱好的用户群体,为个性化推荐、社交关系挖掘等提供依据。
  • 知识图谱构建过程:为了更好地组织和表示知识,知识图谱的构建需要挖掘实体之间的语义关系。共现图可以作为一种辅助工具,帮助发现实体之间可能存在的关联,为知识图谱的关系抽取和构建提供线索和参考,提高知识图谱的完整性和准确性。
  • 生物信息学研究中:在分析基因表达数据、蛋白质相互作用网络等生物数据时,共现图可用于发现基因之间、蛋白质之间的共表达或相互作用关系。例如,通过构建基因共现图,可以找到在特定生理条件下共同表达的基因簇,推测这些基因可能参与的生物学过程或疾病机制。

应用

  • 产业研究领域:可用于找到某个技术领域的顶尖人才团队、顶尖科研机构或企业以及核心技术等。例如,在人工智能领域,通过构建“专利发明人共现图谱”,计算网状人物中的综合中心度,可找到顶尖人才团队;根据“申请人”构建共现图谱,能找到顶尖的科研机构团队;依据专利所属“IPC分类号”构建共现图谱,可找到核心技术。
  • 推荐系统方面:基于用户的历史行为数据构建共现图,如用户对商品的购买记录、对电影的评分记录等,计算物品之间的共现概率或相似度,从而为用户提供个性化的推荐。例如,在电商平台中,根据用户购买商品的共现关系,向用户推荐可能感兴趣的其他商品;在视频平台上,依据用户观看视频的共现情况,推荐相似的视频内容。
  • 信息检索与分类领域:在信息检索中,共现图可以用于扩展查询关键词,提高检索的召回率和准确性。例如,当用户输入一个关键词进行搜索时,系统可以根据共现图找到与之相关的其他关键词,并将这些关键词也纳入检索范围。在文本分类任务中,共现图可以作为特征提取的一种方法,帮助分类器更好地理解文本的语义和主题。
  • 网络安全与风险管理方面:通过构建网络攻击行为、恶意软件传播等共现图,可以发现攻击模式和潜在的风险点,及时采取防范措施。例如,分析不同类型的网络攻击在时间和空间上的共现关系,预测可能的大规模攻击事件,提前进行防御部署。
  • 城市规划与交通管理领域:在城市规划中,分析不同功能区域、交通流量、人口分布等要素的共现关系,为城市的合理布局和功能分区提供决策支持。例如,通过研究商业中心、住宅区、交通枢纽等的共现情况,优化城市的空间结构。在交通管理中,构建交通事故、拥堵点、道路施工等共现图,发现交通问题的高发区域和时段,制定针对性的交通疏导方案。

以下是一个基于《自然博物馆用户的学习需求与响应策略——基于情景学习模式的视角和用户在线评论的实证分析》的共现图具体实例:

研究过程

文章选取了中国北京、上海、深圳自然博物馆及美国纽约自然历史博物馆和英国伦敦自然历史博物馆共6239条评论数据进行文本分析。首先对用户评论文本进行去重、分词等数据预处理,接着使用textrank算法对评论文本进行主题词抽取和频次统计,最后借助cooc软件绘制自然博物馆公众评论的共现网络图。

共现图反映的词语关系

  • 个人情景维度:在共现图中,“自然科学知识”“自然人文故事”“当地文化与生活”等词语频繁共现,且与“孩子”“儿童”“科普”“亲子”等词也有一定的共现关系。这表明在个人情景维度下,用户带孩子参观自然博物馆时,主要期望孩子能学习到自然科学知识,同时了解自然人文故事以及当地文化与生活等方面的内容,体现出用户对于儿童青少年科普教育与丰富展览主题的需求。
  • 社会情景维度:“少儿教育”“成年人学习”“研究”“休闲”“社交”等词语之间存在共现关系,同时与“展厅”“展品”“感觉”“场馆”“空间”等词也有连接。这说明在社会情景维度中,自然博物馆不仅是少儿教育和成年人学习研究的场所,也是人们休闲社交的地方,用户希望博物馆能提供良好的参观体验,包括舒适的场馆空间和丰富的展品等。
  • 环境情景维度:“博物馆物理环境”“展陈形式沉浸性”等词语与“科技”“模型”“特色”等词共现。反映出用户在环境情景维度上,对博物馆物理环境的独特性和展陈形式沉浸性的需求,希望博物馆能运用高科技打造沉浸式展览环境,如通过独特的模型、特色的展示等方式提升参观体验。

共现图反映的主题关系

  • 核心主题与次要主题的关系:从整体的共现图来看,“科普教育”是核心主题之一,与之紧密共现的有“儿童青少年”“展览主题和内容”“参观体验”等次要主题,说明自然博物馆的科普教育功能是与特定的受众群体以及丰富的展览和良好的参观体验密切相关的,它们共同构成了用户对自然博物馆的核心需求。
  • 不同主题维度之间的关系:个人情景维度、社会情景维度和环境情景维度的相关词语和主题之间也存在一定的共现和关联。例如,在共现图中可以发现,为了满足个人情景维度中的学习需求,社会情景维度中的“少儿教育”和环境情景维度中的“沉浸式展览氛围营造”等需要相互配合,共同构建一个完整的学习情景,以提升用户的学习效果和参与动机。

共现图的绘制常用cooc软件介绍

COOC是一款功能强大的文献计量和知识图谱绘制软件,以下是关于它的详细介绍:

功能

  1. 数据提取与清洗:可综合提取中国知网、万方、维普、CSSCI、Sinomed、Web of Science、PubMed、EI、Scopus、ScienceDirect等数据库的数据。能对中文多数据库、Web of Science数据库进行去重清洗,还支持自定义综合去重清洗,以及关键词、机构等去重,可批量合并同义词、删除无效词。
  2. 统计与可视化:能进行频次统计,展示发文年代分布,绘制作者、机构、关键词、期刊、国家等的柱形图、树形图、词云图、饼形图、玫瑰图、雷达图。可实现逐年关键词、作者、机构、国家、期刊等频次变化可视化,包括逐年条形图、逐年树形图、逐年散点图、逐年雷达图、逐年玫瑰图、逐年词云图等。
  3. 矩阵操作:可生成中英文共现矩阵、相异矩阵、余弦相似度矩阵、相关矩阵、欧式矩阵并进行矩阵标准化,还能处理词篇矩阵、二模矩阵、耦合矩阵等。
  4. 网络分析与图谱绘制:能生成邻接表,实现共现矩阵、二模矩阵与邻接表的相互转换,以及邻接表转有向net、邻接表转无向net,可绘制混淆矩阵图、共现图、合作网络图、社区聚类图、系统聚类图、双聚类图等。
  5. 主题演化与前沿探测:可绘制累积主题演化路径图、加权主题演化路径图,能确定核心作者、高频词,进行研究前沿探测,如突现词分析,还支持关键词演进路径布局等。
  6. 其他功能:可进行期刊查询,自动生成Web of Science、PubMed数据库参考文献引用格式,能将数据转化为VOSviewer、CiteSpace软件可识别格式,计算合作度与合作率,统计含不同作者数量的论文数,绘制网络层级结构图、多条折线图、堆积柱形图、堆积条形图、箱线图、混淆气泡图、时间线气泡图等。

应用场景

  1. 学术研究:适用于各学科的本科、硕博士研究生、教师等,可帮助他们分析研究领域的文献,梳理学术脉络,了解研究热点和趋势,构建知识图谱,辅助论文写作和课题研究。
  2. 情报分析:情报分析人员可利用该软件对大量文献数据进行分析,挖掘关键信息和潜在关系,为决策提供支持。
  3. 图书馆管理:图书馆员能通过cooc软件对馆藏文献进行分析,了解学科发展动态,优化馆藏资源配置,为读者提供更好的信息服务。

类似cooc软件的文献计量和知识图谱绘制工具主要有以下几种:

  1. VOSviewer
    • 功能特点:可进行多维度文献计量分析,包括作者、关键词、引用等。能构建作者、机构或国家之间的合作网络图,展示关键词共现关系。提供网络图、热度图、演化图等多种可视化图表,可揭示关键词演化趋势。
    • 应用场景:适用于分析文献引用网络、研究领域的热门关键词和主题,帮助研究人员梳理学术脉络,了解研究热点的发展变化。
  2. CiteSpace
    • 功能特点:是专门的科学文献可视化分析软件,可进行引文可视化分析,呈现科学知识的结构、规律和分布。提供文献共被引用分析、引用关系网络、主题演化路径等多种分析方式,有路径分析、聚类分析、时间线分析等工具,还提供论文被引频次、作者合作强度等定量指标。
    • 应用场景:常用于追踪研究领域的最新进展和发展趋势,帮助研究人员把握学科发展的关键节点和前沿方向,在学术研究中广泛应用于知识图谱构建和科学文献分析。
  3. Gephi
    • 功能特点:是开源的图形可视化工具,专注于大型网络图的可视化和分析。具有强大的布局算法和可视化效果,可对复杂网络进行节点、边的样式设置,支持数据导入导出和插件扩展。
    • 应用场景:适合构建大型的研究网络图谱,如跨学科研究的领域关系图,在社会网络分析、计算机科学等多领域有广泛应用,可帮助研究人员直观理解复杂网络结构和关系。
  4. Cytoscape
    • 功能特点:是开源软件平台,用于可视化复杂的网络数据。提供丰富的插件和工具,支持生物网络、社会网络等多种网络数据的分析和可视化,可进行节点和边的属性设置、网络布局调整、数据挖掘等操作。
    • 应用场景:在生物医学领域应用广泛,用于分析基因调控网络、蛋白质相互作用网络等,也适用于社会科学等领域的网络分析和知识图谱构建。
  5. Pajek
    • 功能特点:是用于大型网络分析和可视化的工具包,具备处理大规模网络数据的能力,提供多种网络分析算法和可视化选项,可进行网络结构分析、社区发现等操作。
    • 应用场景:常用于社会网络分析、社会科学研究等领域,处理大型网络数据,帮助研究人员揭示网络的结构和特征。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值