R语言实现行为特征分析（Behavioral Profile，BP）+层次聚类分析（hierarchical agglomerative cluster analysis，HAC)

sinat_36115361

已于 2022-04-12 14:53:15 修改

阅读量2k

点赞数

分类专栏： R语言数据挖掘文章标签：文献学习大数据

于 2022-03-29 09:52:42 首次发布

本文链接：https://blog.csdn.net/sinat_36115361/article/details/123811458

版权

本文介绍了如何使用R语言进行行为特征分析（Behavioral Profile, BP）和层次聚类分析（Hierarchical Agglomerative Cluster Analysis, HAC）。BP方法用于分析近义词和多义词的不同含义，通过词性标注、向量计算和聚类来识别差异。文中详细阐述了BP的实现步骤，并提供了计算BP向量、距离矩阵和进行层次聚类的代码示例。进一步讨论了不同聚类方法（如K-means和K-medoids）的效果，以及如何确定最佳聚类数量。" 123221477,7810433,使用Echarts绘制地图实战指南,"['JavaScript', 'Echarts', '数据可视化']

摘要由CSDN通过智能技术生成

1. 什么是Behavioral Profile?

行为剖面法(BP)是基于Atkins(1987)和Hanks(1996)的思想，最近Dagmar Divjak、Stefan Th进一步阐述了这一思想。Gries和其他语言学家在一系列研究(如Divjak2003;Divjak&Gries 2006)。

这种方法对于辨别一组近义词或多义词各个含义之间的差异有较好的作用。

2. BP实现步骤

step1：BP方法通常需要一个结构或一个词的许多实例（数据）
step2：对实例中的词性进行标注（探索各种分类维度）
step3：计算多义词的每个含义或者各个近义词在各个分类维度的每个取值上的数量占比，每个含义形成一个向量
step4：计算每个含义间的差异（向量的距离），聚类等

3. 代码

引入需要的包和示例数据，本数据共7列，450行，每行是一个数据，每列是一个分类维度，第一列“Cx”代表数据的词义，有9个取值，BP的主要目的就是分析这9个取值在其他分类维度的表现差异。

install.packages(c("cluster", "pvclust", "vcd"))
library(Rling); library(cluster); library(pvclust); library(vcd)
data(caus)#这里是R自带的数据，可以换成自己的数据：每行是一条数据，列名是各个分类维度

计算每个含义的BP向量，形成BP距离矩阵

be_made_toV <- caus[caus$Cx == "be_made_toV", -1]
cause_toV <- caus[caus$Cx == "cause_toV", -1]
get_toV <- caus[caus$Cx == "get_toV", -1]
get_Ved <- caus[caus$Cx == "get_Ved", -1]
get_Ving <- caus[caus$Cx == "get_Ving", -1]
have_V <- caus[caus$Cx == "have_V", -1

最低0.47元/天解锁文章

sinat_36115361

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
R语言实现行为特征分析（Behavioral Profile，BP）+层次聚类分析（hierarchical agglomerative cluster analysis，HAC)

R语言实现corpus-based lingustic中的Behavioral Profile（BP, 行为特征理论）
复制链接

扫一扫

专栏目录