“计算传播学导论”系列文章是我在学习张伦、王成军、许小可三位老师的著作《计算传播学导论》所写的一些读书笔记和摘要内容,以此作为计算传播学的学习起源。本节内容将介绍:文本分析技术的概要。
大数据时代的降临,使得来源于网站、社交媒体、传感器的数据以量级产生。伴随着大规模文本数据而来的是,内容分析工作中的的人工操作难度越来越大。计算机作为工具,能够通过算法代码高效、精准的进行文本分析,而这项技术也逐渐受到了传播学者的关注。
在正式探讨“文本分析”之前,让我们来解析几个概念。
多源:三元世界理论把世界分为物理世界、人类世界和信息空间。我们在《媒介融合》的系列文章中也将会提到这样的论述,“我们总是以虚拟的形式彼此相伴。当前媒介研究的核心任务在于重新思考具身化传播和技术中介化传播之间的相互关系。”在这样的背景下,就有了这样的概念,现阶段我们看到的存在的“信息”来源不一,同一数据的信息源也并非一致。随着5G的应用,传感器的数据更加丰富。所谓“多源”,即“多来源”,同一信息是来自于传感器、网站、社交媒体等众多来源的数据,从而构成了多源数据集。
异构:随着自动化、智能化进程的不断深入,在生产过程中会产生大量的数据,这些数据的结构不一,构成现有数据的“异构”特征。异构数据具体包括:结构化数据、半结构化数据、非结构化数据。结构化数据指的是关系模型数据,具体则是我们可以用关系数据库进行管理的规则化数据;半结构化数据指的是非关系模型的,却有固定结构模式的数据,比如我们的日志的文件、XML文档等等;非结构化数据,就是完全没有定式,我们日常的图片、视频这些数据,就都是非结构化数据。
跨模态:亦为多模态,我们的感觉器官,听、说、读、写接收的数据,是自然界数据的