《计算传播学导论》读书笔记——第二章文本分析简介

最新推荐文章于 2024-10-06 23:33:23 发布

Bai Yuexi

最新推荐文章于 2024-10-06 23:33:23 发布

阅读量1k

点赞数 1

分类专栏：计算传播学习文章标签：数据挖掘机器学习人工智能中文分词

本文链接：https://blog.csdn.net/Bai_yxi/article/details/126568989

版权

本文介绍了计算传播学中的文本分析技术及其在传播学研究中的应用，包括情绪传染、个体情感变化规律、文本特征提取等方面。讨论了文本预处理过程，如分词、去除停用词、词性标注等，以及Python中如NLTK、Textmining、Gensim和jiebaR等工具的使用。强调了文本挖掘在理解大规模传播内容、预测行为和分析社会文化变迁方面的价值。

摘要由CSDN通过智能技术生成

第一节文本分析研究现状

文本挖掘 (Text Mining) 也称文本分析，即利用数据挖掘方法在文本数据集上的运用，旨在从大量非结构化的文本集合中挖掘信息、发现知识。

文本挖掘的对象经常是非结构化或半结构化的文本集合。

文本预处理的目的就是使得文本数据结构化。

文本预处理过程包含分词（中文）、特征表示和特征提取等一系列操作。

常用文本挖掘技术

类别	内容
文本分类 (Text Classification)	按照预先定义好的类别，为文档集中的每个文档确定一个或几个类别。研究者首先对一个训练文档集进行人工标注 ”类别标签＂，构建分类模型，并将 “学习“ 得到的分类方法，对其他文档进行自动分类。
文本聚类 (Text Clustering)	没有预先定义好的类别，目标是将文档集合分成若干个＂簇 ", 使得同一簇内文档内容的相似度尽可能大，而不同簇之间的相似度尽可能小，并为每个簇给出一个主题摘要。
关联分析 (Association Analysis)	寻找同一事物中不同变量同时出现的规律性。从文档集合中找出不同词语之间有意义的关系。可分为简单关联、时序关联以及因果关联。
趋势预测 (Trend Prediction)	通过对已有文档的分析，推测出特定数据在将来某个时刻的取值情况。考虑文本数据的时间维度，文本数据可看作时序数据，反映一段时间内文本主题的变化情况，可以用来预测下一时段文本主题的发展变化趋势。

第二节文本分析与传播学研究

（一）为什么文本挖掘技术逐渐受到传播学者的关注

社会化媒体 (Social Media) 作为新的信息传播媒介技术，改变了人们的信息传播行为（如“去中心化”）。新的媒介技术，对传播学理论的阐发具有重要意义。
社会化媒体平台精确记录了海量用户长时间、具有精细时间颗粒度的细节行为，能够用于回答传播学一些基本且重要的理论问题。
相比传统的文本内容分析，文本挖掘方法具有一定的优势。以较少人工干预的方式更客观地提取文本特征，测量信度和效度更具优越性；在线海量传播内容相关的研究，需要利用更为自动化的方法（人工无法胜任）。

当然，文本挖掘——特别是以有监督的机器学习方法为代表的文本分类方法，其得以进行的前提条件就是需要有高质量的人工标注数据集。
（人工标注，内容分析方法，还是很重要，不能完全依赖自动化。）

（二）不同文本分析研究对传播学的理论贡献

1.情绪的传染

文本情绪的判定，本质上是一个分类问题。

用户对于信息的接受——特别是广告、选举等说服性信息的情感倾向，是测量其信息接受程度的重要指标。

Eg：Kramer, Guiillory & Hancock，利用Facebook随机减少实验用户所接收到的新闻推送中10%具有积极情感倾向或消极情感倾向的内容，从而检验用户随后所发布帖子的内容对应的情绪变化。结果证实面对面交往以及非语言的语境线索(Non-Verbal Cues)并非情感传递的必要条件。

2.个体情感变化规律

Eg：Golder和Mac利用世界不同地区的Twitter用户在不同时间发布的帖子，对个体情感变化规律进行回答，并进行了跨地区比较。

研究将积极情绪分为热情、高兴、积极、机敏；消极情绪分为悲痛、恐惧、愤怒、负罪感、恶心。横坐标为时间（小时），纵坐标为该情绪出现的平均频次，阴影表示置信区间。

该研究发现，积极情绪和消极情绪并非呈现出负相关关系，而是呈现相互独立的趋势（二者相关性系数仅为－0.08)。

该研究的意义在于，通过大规模的在线文本内容，准确描述了不同地区、不同日期、不同时间的Twitter用户的情绪变化。而这种情绪变化规律在传统的传播学研究中是无法被准确描述的。

情绪每日及每周变化
地区用户情绪日间变化

3.文本特征提取

研究信息传播的效率和效果

Eg：Bail研究了社交媒体游说组织的信息特征，发现处于“文化桥梁”位置的说服组织（介度中心度高），其信息传播效率相较非文化桥梁位置的组织更大，即更容易获得回复。回答了：在社交网络中是“万金油”更容易得到回复，还是某领域“专家”更容易得到回复。在该研究看来，前者显然在获取用户注意力层面更具优越性。

该研究将游说组织在社交媒体中的文本构建语义共现网络——如果两个语词同时出现于一篇文档中，则二者之间有一条连边关系。

该研究计算了每个语词的“词频／逆向文档频率”值（Term Frequency-Inverse Document Frequency, 以下简称TF-IDF值）。

以此TF-IDF值为权重，该研究构建了“游说组织－语词”二分网络(Bipartite Network)，并计算每个游说组织的介数中心度 (Betweenn Centrality）

在这里插入图片描述
（重点在理解构建语词网络的研究方法，逆向文档概率，二分网络等专有名词较难理解，要进行额外查询）