R语言实现行为特征分析(Behavioral Profile,BP)+层次聚类分析(hierarchical agglomerative cluster analysis,HAC)

本文介绍了如何使用R语言进行行为特征分析(Behavioral Profile, BP)和层次聚类分析(Hierarchical Agglomerative Cluster Analysis, HAC)。BP方法用于分析近义词和多义词的不同含义,通过词性标注、向量计算和聚类来识别差异。文中详细阐述了BP的实现步骤,并提供了计算BP向量、距离矩阵和进行层次聚类的代码示例。进一步讨论了不同聚类方法(如K-means和K-medoids)的效果,以及如何确定最佳聚类数量。" 123221477,7810433,使用Echarts绘制地图实战指南,"['JavaScript', 'Echarts', '数据可视化']
摘要由CSDN通过智能技术生成

1. 什么是Behavioral Profile?

行为剖面法(BP)是基于Atkins(1987)和Hanks(1996)的思想,最近Dagmar Divjak、Stefan Th进一步阐述了这一思想。Gries和其他语言学家在一系列研究(如Divjak2003;Divjak&Gries 2006)。

这种方法对于辨别一组近义词多义词各个含义之间的差异有较好的作用。

2. BP实现步骤

step1:BP方法通常需要一个结构或一个词的许多实例(数据)
step2:对实例中的词性进行标注(探索各种分类维度)
step3:计算多义词的每个含义或者各个近义词在各个分类维度的每个取值上的数量占比,每个含义形成一个向量
step4:计算每个含义间的差异(向量的距离),聚类等

3. 代码

引入需要的包和示例数据,本数据共7列,450行,每行是一个数据,每列是一个分类维度,第一列“Cx”代表数据的词义,有9个取值,BP的主要目的就是分析这9个取值在其他分类维度的表现差异。

install.packages(c("cluster", "pvclust", "vcd"))
library(Rling); library(cluster); library(pvclust); library(vcd)
data(caus)#这里是R自带的数据,可以换成自己的数据:每行是一条数据,列名是各个分类维度

计算每个含义的BP向量,形成BP距离矩阵

be_made_toV <- caus[caus$Cx == "be_made_toV", -1]
cause_toV <- caus[caus$Cx == "cause_toV", -1]
get_toV <- caus[caus$Cx == "get_toV", -1]
get_Ved <- caus[caus$Cx == "get_Ved", -1]
get_Ving <- caus[caus$Cx == "get_Ving", -1]
have_V <- caus[caus$Cx == "have_V", -1
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值