计算传播学导论：文本分析概述

最新推荐文章于 2024-02-26 00:51:27 发布

重回思考

最新推荐文章于 2024-02-26 00:51:27 发布

阅读量1k

点赞数

分类专栏：计算传播学文章标签：大数据

本文链接：https://blog.csdn.net/sinat_33151657/article/details/107731814

版权

本文是关于计算传播学的读书笔记，重点介绍了文本分析技术在大数据时代的作用。解释了多源、异构和跨模态的概念，并阐述了如何通过数据挖掘和预处理非结构化、半结构化文本，进行文本分类、聚类、关联分析和趋势预测等操作。后续内容将探讨文本分析在传播学中的应用和贡献。

摘要由CSDN通过智能技术生成

“计算传播学导论”系列文章是我在学习张伦、王成军、许小可三位老师的著作《计算传播学导论》所写的一些读书笔记和摘要内容，以此作为计算传播学的学习起源。本节内容将介绍：文本分析技术的概要。

大数据时代的降临，使得来源于网站、社交媒体、传感器的数据以量级产生。伴随着大规模文本数据而来的是，内容分析工作中的的人工操作难度越来越大。计算机作为工具，能够通过算法代码高效、精准的进行文本分析，而这项技术也逐渐受到了传播学者的关注。

在正式探讨“文本分析”之前，让我们来解析几个概念。

多源：三元世界理论把世界分为物理世界、人类世界和信息空间。我们在《媒介融合》的系列文章中也将会提到这样的论述，“我们总是以虚拟的形式彼此相伴。当前媒介研究的核心任务在于重新思考具身化传播和技术中介化传播之间的相互关系。”在这样的背景下，就有了这样的概念，现阶段我们看到的存在的“信息”来源不一，同一数据的信息源也并非一致。随着5G的应用，传感器的数据更加丰富。所谓“多源”，即“多来源”，同一信息是来自于传感器、网站、社交媒体等众多来源的数据，从而构成了多源数据集。

异构：随着自动化、智能化进程的不断深入，在生产过程中会产生大量的数据，这些数据的结构不一，构成现有数据的“异构”特征。异构数据具体包括：结构化数据、半结构化数据、非结构化数据。结构化数据指的是关系模型数据，具体则是我们可以用关系数据库进行管理的规则化数据；半结构化数据指的是非关系模型的，却有固定结构模式的数据，比如我们的日志的文件、XML文档等等；非结构化数据，就是完全没有定式，我们日常的图片、视频这些数据，就都是非结构化数据。

跨模态：亦为多模态，我们的感觉器官，听、说、读、写接收的数据，是自然界数据的